电话:4008119163
关闭
您当前的位置:首页 > 职场资讯 > 职场攻略

他眼中o3独特搜索能力证明OpenAI有技术突破,Claude 4也值得关注

来源:网络整理 时间:2025-06-26 作者:佚名 浏览量:

在他眼中,o3所展现出的非凡搜索技巧,彰显了OpenAI在增强推理模型搜索功能及运用其他工具方面的技术革新。“我曾听闻,对它在搜寻特定信息时那股执着精神的最佳比喻,便是一只‘敏锐追踪猎物的训练有素的猎犬’。”

他表示,未来将有更多的人工智能模型模仿Anthropic的Claude 4,尽管它们的基准测试成绩提升并不显著,但在实际应用方面却取得了显著进展。只需对模型进行细微的调整,就能使像Claude Code这样的智能体显得更为可靠。

此外,当讨论到预训练的扩展法则出现“停滞不前”的现象时,他提到,新的规模级别拓展或许需要每隔数年才能实现,有时甚至可能根本无法实现,这一切都取决于人工智能的商业化进程是否能够按照预期顺利进行。

尽管如此,他并不认同“预训练在科学领域中的地位已经不再重要”。Gemini 2.5项目便是一个鲜明的反证。

学术前沿资讯在确保原文核心意义不变的前提下,对全文进行了精心编辑,具体如下:

关于夏季展望,O3s的新颖之处即将揭晓。

夏日通常是科技领域较为宁静的时段。OpenAI 的行为似乎正契合这一常态,其公开的模型“尚需时日”以实现优化,至于 GPT-5 的推出,也似乎频繁遭遇延期。这些无疑会成为业界瞩目的焦点,然而,我对于是否能在 8 月之前目睹这些新闻尚存疑虑。

在这段人工智能发布热潮的短暂空档期,我计划回顾我们所经历的历程,并展望我们未来的前进方向。以下信息是您需要关注的。

o3:超越 scaling 的技术突破

关于 OpenAI 推出的 o3 模型,普遍看法是,该公司“在强化学习训练中增加了计算资源”,这一举措引发了一些奇特且前所未有的过度优化问题。这种观点是准确的,尽管如此,发布会现场直播的内容依然展现了重大进展——即通过可验证奖励强化学习(RLVR)技术,实现了数据集和训练基础设施规模的扩大。

关于o3,人们对其带来的多样化搜索体验的探讨相对较少。在执行常规查询时,o3能够访问数十个网站。我曾听闻,对于它在搜寻特定信息时的执着精神,有人用“一只敏锐地追踪目标的训练有素的猎犬”来形容它。o3给人的印象是,它能够以一种与现有所有模型截然不同的方法来获取信息。

值得注意的是,自2025年4月的发布以来,已过去数月时间,然而其他领先的实验室却尚未发布任何类似模型。在这种实验室间(尤其是OpenAI和Google)发布内容看似完全同步的背景下,o3所展现出的持续搜索能力依旧给我留下了深刻的印象。

关键在于,何时将出现另一家研究机构推出一款品质相当的模型?若这一发展态势延续至夏季的终结,那么它将验证 OpenAI 在增强推理模型对搜索及其他工具应用之可靠性方面实现了技术上的突破。

在对比的视角下,我们需深入探讨一个开放性学术社群所遭遇的核心难题,那就是如何打造一个以 o3 为灵感来源的模型(其真实搜索效能更趋近于 GPT-4o 或 Claude 4)。

确保寻找到能激发模型开展搜索的强化学习数据至关重要。在强化学习实验中,让模型在系统提示下进行探索相对简单,然而,随着训练的深入,若工具不够实用,模型理应迅速学会停止依赖它。在这方面,OpenAI 表现卓越,特别是在融合了深度研究团队的强化学习训练经验之后(据我所知,其训练过程基于 o3)。此外,一篇探讨DeepSeek R1风格在扩展强化学习训练中的应用,并在大数据子集上保持工具使用率一致性的研究论文,将会给我留下深刻印象。

底层搜索索引同样至关重要。OpenAI 的模型在 Bing 的支持下运行。尽管 Anthropic 采用了 Brave 的 API,但其性能并不理想(充斥着大量SEO垃圾信息)。利用这些API构建学术基准模型,还需承担额外的计算负担。一旦建立起一个可信的基准,我们便能够着手进行一系列引人入胜的科研探索,比如研究哪些模型能在未曾接触过的数据集中实现最佳泛化——这对于在涉及本地敏感信息(诸如医疗和金融领域)的数据上应用模型来说,是一个至关重要的能力。

如果你尚未使用 o3 进行搜索,真的应该尝试一下。

Agent 性能将大幅提升

Claude Code(包括 Claude 4)在产品市场上的匹配度极为出色。这得益于产品的完美融合——不仅运行稳定高效,而且用户体验(UX)与专业领域高度吻合,使用过程几乎成为一种愉悦的体验。

在此情形下,我持续探索着各种途径以创作相关资料。然而,存在一个难题,那就是我并非 Claude Code 以及其他编程辅助工具(譬如 Codex 和 Jules)的主要使用者。我并不频繁在繁杂的代码库中从事开发工作——在我的角色中,我更像是一个团队中的研究主管和问题解决者,而不是一个始终在单一代码库中持续进行开发的工程师——因此,我无法提供关于如何高效运用 Claude Code 的实际指导,也无法分享与它建立紧密联系,以助你体验“感受 AGI”的宝贵经验。

我所掌握的是模型与系统知识,同时,前沿模型中的一些关键信息表明,这些智能体的能力提升路径呈现出相当积极的态势。

_用模型回顾历史_多agent模型

LLM 构建的智能体独具特色,其显著特点在于执行任务时涉及对模型的多次调用,有时甚至需要调用多个模型,并针对不同的任务配置多种提示。在此之前,聊天窗口中应用的模型主要针对线性任务设计,只需将处理结果反馈给用户,无需处理复杂的记忆或环境信息。

引入实际环境于模型之中,迫使模型承担更多职责,并且这些职责的范畴通常更加宽广。在开发此类具备自主能力的系统过程中,我们面临两种主要的障碍:

模型无法完成我们所期望的agent执行的所有任务,同时,模型在执行任务的具体细节上也出现了问题。

针对那些已取得初步成效的智能体,例如 Claude Code 和 Deep Research,它们所显现的问题主要集中于第二类。实验室采取的应对策略是,在具体应用环境中识别出频繁发生的异常情况。这种情况可能体现为某些边缘日常任务的执行可靠性仅有50%。在这种情境下,实验室往往能够毫不费力地产生新的数据,并将这些数据融入模型进行进一步的训练,进而使得该子任务的可靠性接近99%。鉴于实验室目前主要依靠后训练而非大规模预训练来提升性能,因此这些改进的整合所需时间相较于近几年要大幅缩短。

这一切的关键在于它们如何协同运作。众多繁复的任务可能会因为一些微小的故障而受到影响。然而,在这种情况下,只需对模型进行细微的调整,就能使像 Claude Code 这样的智能体显得更为可靠,尽管这样的调整并未显著提升模型的最高性能。Deep Research 面临的情况亦是如此。

据此,我判断目前我们所采用的这些智能体将带来随机性和显著的性能飞跃。

我尚无法明确,这款新的代理平台何时会正式亮相。这其中的一个关键因素是产品本身存在的问题,而另一个则是性能上的限制。尽管这款新平台在产品市场契合度(PMF)方面似乎已经达到了预期,但其发展轨迹可能会显得较为不确定。然而,对于那些已经实现了PMF的平台来说,它们可以通过采用先进的模型来获得显著的性能提升,正如我们所习惯的那样。

这代表着该领域的一条创新路线,它将采用与过往截然不同的信息交流手段。未来,众多人工智能模型将效仿 Anthropic 的 Claude 4,尽管其基准测试的改进幅度不大,但在实际应用层面上的进步却是显著的。这一发展动向将对政策制定、评估标准和透明度产生深远的影响。为了评估技术进步是否持续,我们必须进行更为细致的剖析,特别是在那些批评者抓住评估标准停滞不进之机,宣称人工智能技术已失去效能的时刻。

即便你对编程不太熟悉,也应当试试 Claude Code。这款工具可以迅速帮你打造出有趣的演示和独立的网站。相较于 Codex 等完全自主的智能体,Claude Code 在易用性上展现出显著的优势。

模型 scaling 速度变缓

在2025年,那些由顶级人工智能研究机构推出的模型,在参数总量方面普遍不再呈现上升趋势。以Claude 4为例,它的API收费标准与Claude 3.5持平。OpenAI仅推出了GPT-4.5的研究性预览版本。至于Gemini,其Ultra版本尚未对外公布。这些实验室内部还有更多未公开的模型,其规模更大。

值得注意的是,众多模型在规模上可能有所缩减,比如 Claude 4 Sonnet 可能略小于 Claude 3.5 Sonnet,这一变化主要得益于预训练阶段的效率增强。这种技术上的微小进步对价格和推理速度产生了显著影响,尤其是从长远角度考量,但这并非我论述的重点。

关键在于,GPT-5 的能力增强主要依靠推理能力的拓展,而非仅仅依赖于“规模更大的单一模型”。长期以来,人们被告知“掌握最大规模训练集群的实验室将在竞赛中胜出,因为它们在规模扩展上占有优势”。这也是马斯克创建 xAI 巨型集群的动机所在。然而,目前来看,最大的集群在整体研发进度上仅略占优势。

在用户需求方面,拓展的空间已经不再具备吸引力。在将来,当实验室面临用户需要克服的极其困难的挑战时,他们或许会重新将注意力转向这一领域。尽管 GPT-4.5 的训练所需计算量大约是 GPT-4 的百倍之多,但在常规用户评估指标上,其进步只是略有显现。

观察到的现象是,对用户偏好的模型规模进行的广泛效率优化。同时,行业内已经确立了数项规范:

小型模型,例如Gemini Flash Lite以及GPT 4.1 Nano。

小型模型,例如Gemini Flash和Claude Haiku。

标准模型,例如GPT-4o和Gemini Pro,

巨型模型,诸如Claude Opus和Gemini Ultra。

这些模型展现出较为稳定的价格定位、响应速度以及性能标准。随着行业的逐渐成熟,这些标准变得尤为关键!

随着时间的流逝,效率的增强将孕育出新的规范。我们将目睹 Gemini Ultra 和 GPT-4.5(GPT-5)等模型的广泛应用,然而,它们未来的发展路径尚不明朗。现阶段,新的规模级别的发展或许每隔数年才能实现,甚至有可能根本无法实现,这一切都取决于人工智能的商业化进程是否能够按照预期顺利进行。

规模,作为产品区分度的一个要素,到了2024年已失去其效力。但这并不代表预训练这一科学领域就不再具有价值。最新的Gemini 2.5报告明确表明:

Gemini 2.5 系列在确保大规模训练的稳定性、信号的有效传播以及动态优化的能力上实现了重大突破。相较于先前的 Gemini 模型,它在预训练阶段展现出了更为显著的性能增强。

相关推荐
暂无相关推荐
客服服务热线
4008119163
24小时服务
微信公众号
手机浏览

Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40

地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com

Powered by PHPYun.

用微信扫一扫