电话:4008119163
关闭
您当前的位置:首页 > 职场资讯 > 职场攻略

业界称爱丁堡大学研究意义重大,多研究与之相互印证

来源:网络整理 时间:2025-06-07 作者:佚名 浏览量:

业界:意义重大

爱丁堡大学的博士生郭尚民表示,他完全赞同谷歌DeepMind的这一观点,并且他们持续有意识地优化训练策略,旨在实现世界建模。

恰好就在不久前,他们公布了一篇论文,揭示了一个新发现:策略与全球模型可以整合进同一个大型语言模型中,这样一来,就无需依赖外部动态模型了。

另一篇已向RLC 2025提交的论文所阐述的见解,同样与本研究结论相辅相成。

有人注意到,这项研究成果与Ilya在2023年提出的一个观点,竟然意外地吻合起来——

存在一个更深层次的东西,一条支配所有智能体的基本法则。

有人提出了一个极其独特的研究视角:网络图——这种图——堪称构建世界模型的高效抽象手段。究其原因,在于图这种结构能够描绘出世间万物,几乎无所不能。

或许,世界模型在AGI领域中的关键作用,正表现在它如何通过简化维度来处理复杂性的实际问题。

存在无模型的捷径吗?

世界模型构成了人类追求目标的基石,然而在纷繁复杂的开放环境中,学习这一模型却显得尤为困难。

然而,目前我们已观察到众多通用型、非基于特定模型的智能体,诸如Gato、PaLM-E、Pi-0等。

因此,这些智能体到底是通过学习隐含的世界模型,还是采用了其他通用于新任务的策略?

经过深入研究,研究者们得出结论:所有能够推广至广泛且简单的目标导向任务的智能体,必定掌握了一种能够复制其周围环境的预测机制。而且,这一机制始终能够从智能体内部得以重建。

具体而言,他们所展示的是:在涵盖广泛的一系列简单目标(比如将环境引导至某一期望状态)的情况下,只要某个基于目标的策略能够达到一个特定的后悔值上限,就有可能从这个策略中提取出一个对环境转移函数的有界误差近似。

总的来说,为了达到更小的遗憾程度,亦或是达成更为繁复的使命,智能体需不断深化对周围世界的精准认知。

而「以目标为条件的策略」,在信息上实际就等价于世界模型!

然而,这种等效性仅限于那些涉及多阶段时间跨度的目标,而对于那些只看重即时收益的短视智能体来说,它们无需学习世界模型。

总之,根本不存在这样一条「无模型的捷径」!

若要培养一个能够实现多样化目标导向任务的智能实体,便不可避免地要面对掌握世界模型的难题。

而且,为了增强其性能或适用范围,智能体必须不断掌握更加精准与详尽的世界模型。

所以,智能体中究竟蕴含了什么世界知识呢?

为了找到这一问题的答案,研究人员提出了一系列算法,这些算法能够在掌握智能体的策略和目标信息的基础上,重建其对应的世界模型。

这些算法补全了规划和逆强化学习的三位一体关系。

规划:世界模型+目标→策略

逆强化学习:世界模型+策略→目标

研究者提出的这一环:策略+目标→世界模型

在这个过程中,智能体就体现出了惊人的涌现能力!

由于需要在众多目标上尽可能降低训练过程中的损失,智能体需掌握一个世界模型,这一模型使其能够应对那些未曾直接接受过训练的任务。

即便是最基础的目标指向性,亦能激发出众多技能,诸如社会感知、对模糊性的推断、以及意图的辨别等。

此外,在先前的研究里,他们意识到为了确保系统的鲁棒性,构建一个因果关系的世界模型是必要的。

但事实上,任务泛化并不需要对环境具备太多的因果知识。

此处存在一种因果关系的层级结构,但这种结构主要关注的是智能体的本质和能力,而非推理活动本身。

下面,就让我们仔细阅读这篇精彩的论文,开启一场思维盛宴!

人类智能的特征,就是世界模型

人类智能的一个显著特点在于,它能够在缺乏监督的环境下独立完成新的任务,这一特性可被概括为“小样本学习”或“零样本学习”两种形式。

目前,LLM正逐渐显现出这些功能,这也使得我们对AGI抱有期待——即能够在复杂的现实场景中,执行那些具有长期序列性和以目标为指引的任务的系统。

在人类群体中,这种以目标为导向的灵活行为,在很大程度上,是依赖于对周围世界构建的复杂心理图景,亦即我们常说的“世界模型”。

不过,如果要实现AGI,必须先拥有世界模型吗?

这个问题,在业界一直存在争论。

1991年,Brooks在其著作《没有表征的智能》中阐述了一个广为人知的论断:世界本身就是最完美的模型。在智能体进行“感知-行动”循环互动的过程中,所有智能行为均能自然生成,无需智能体去学习关于世界的显性表征。

该论文的链接为:https://people.csail.mit.edu/brooks/papers/representation.pdf,读者可在此处查阅。

然而,越来越多的证据显现,实际上,无模型智能体或许正在潜移默化地掌握世界模型,甚至有可能在习得隐式规划算法。

这便引发了一个核心的疑问:我们能否借助所谓的“无模型方法”达到与人类相当的人工智能水平?抑或,掌握一个全面的世界模型是必须经历的步骤?

若非得构建一个世界模型,那么它究竟需要达到何种精确度、何种全面性,方能支撑起相应层次的能力呢?

本篇论文的答案是——

在一系列包含丰富多样性的基础任务中,若某个智能体成功达到了“后悔值阈值”,那么它必定已经掌握了该环境精确的预测模型。

换言之,智能体策略本身便涵盖了模拟环境所需的所有必要信息。

此结论适用于所有达到“后悔值界限”的智能体,不论其训练途径、架构如何,亦无需预设理性条件。

此外,在第三部分,研究人员还介绍了一种新的方法,旨在从通用智能体中提取关于世界的模型。

研究结果显示,即便智能体与其预设的「能力假设」存在较大偏差,相关算法依旧能够成功重建出精确的世界模型。

实验设置

在本次实验里,大写字母被用来代表随机变量,而小写字母则用来指代这些变量的具体取值或所处的状态,换言之,X等于x。

我们设定环境为一种可调控的马尔可夫过程,在这种过程中,并未设定特定的奖励函数以及折扣因子,它属于马尔可夫决策过程(MDP)的范畴。

形式上,一个cMP包含以下元素:

将状态–动作对随时间演化的序列称为轨迹,记作

轨迹的一个有限前缀称为历史,记作

定义1,就是一个可控马尔科夫过程。

在假设1中,研究者提出环境可以被一个不可约、稳定、维度有限的可控马尔可夫过程所描述,并且该过程至少包括两个操作步骤。

研究者的追求在于确立一系列既简单又易于理解的目标,从而使得我们有理由期待智能体能够达成这些目标。

由此,他们提出了定义2。

DeepMind揭惊人答案:智能体就是世界模型,跟Ilya 2年前预言竟不谋而合_DeepMind揭惊人答案:智能体就是世界模型,跟Ilya 2年前预言竟不谋而合_

依据定义2,我们可以通过将目标按照顺序或并行的形式进行整合,逐步构建出层次不断深化的复合型目标。

然后,他们提出了定义3。

以一个实例进行说明,这种维修机器人承担着双重使命:它必须负责对一台出现故障的设备进行维修,亦或是寻找到一位工程师,并向其报告设备所发生的故障情况。

进行机器维修时,必须遵循一系列既定的步骤,包括a_1,a_2,直至a_N,并且在每个步骤中都必须实现相应的目标状态s_1,s_2,直至s_N。

寻找并告知工程师的相关步骤,需要使机器人前往工程师的所在地S=s_seng,然后进行一项通知行为A=a′。

机器人的主要目标可以概括为一个复合型目标,即:ψ等于ψ1或者ψ2。换言之,机器人只需达成修理任务或通知任务中的任一项目标即可。

智能体

这些研究的宗旨在于构建一个极度简化的定义,旨在描绘出在其所处环境中能够达成众多目的的智能实体。

为此,研究者将注意力集中在目标条件智能体上,此类智能体的行为模式是将历史状态h_t与目标ψ相对应,进而转化为动作a_t(如图2所示)。

图中介绍了一个智能体-环境系统。

智能体通过将当前状态s_t(或历史信息)与目标ψ进行映射,进而确定动作a_t的函数。

图示中的虚线部分代表算法1,此算法能够依据智能体之间的映射关系,成功恢复出环境中的状态转移概率。

需留意,这一界定并未规定智能体在作出决策时必须完全依赖于整个环境的历史信息。

任何策略(例如马尔可夫策略)均可由此表示。

为简化分析,研究者假设:

据此,我们可以明确界定出针对特定环境和目标集合Ψ的最优目标条件智能体,该智能体针对集合Ψ中的每一个元素ψ,都会采取策略以最大化目标ψ的达成可能性,具体可参考定义4。

在现实情境中,智能体往往并非达到最佳状态,特别是在处理那些需要在复杂场景下协调多个子目标,并跨越较长的时间段来完成的任务时,这种情况尤为明显。

于是,研究者对定义4进行了调整,提出了一个关于有界智能体的概念,这类智能体在追求目标时,其操作深度被限制在最大值Ψn以内,并且其失败的概率与最优智能体相比,也保持在一定的界限之内。

有界智能体由两个参数定义(见下列定义5):

δ表示失败率,属于某个区间,这一概率值限定了智能体达成目标的可能性,与最优智能体的表现相比,设定了一个最低标准,这可以类比为“遗憾”的概念。

最大目标深度n,该后悔界限只对深度小于等于n的目标成立。

这种定义自然地涵盖了我们关注的智能体类型——

它们具备实现特定复杂度目标的能力,这一能力由参数δ和Ψn共同决定。

重要的是,定义5仅假设智能体具备一定的能力。

智能体就是世界模型

最终,研究人员证明了条件策略与世界模型的「等价性」:

智能体的策略决定了环境转移函数的近似(即世界模型),并且这种近似存在一定的误差范围。

因此,掌握这种以目标条件为依据的策略,在信息层面上与学习一个精确的世界模型是等价的。

这需要归约证明,详细证明见原文附录。

具体来说,研究者们认为智能体具备目标导向且能力受限(参照定义5),这意味着在深度为n的有限目标导向任务中,它展现出了一定的(最低限度的)能力(参照定义3)。

研究者首先提供了用于支撑定理1论证的算法——算法1(Algorithm 1)的伪代码。

在确定后悔界限这一目标条件策略的前提下,算法1被应用于计算转移概率的误差界限。

紧接着,研究者提出了算法二,该算法旨在估算Pˆss′(a),相较于算法一,其误差范围有所减小,同时其实现过程也显得更加简便。

算法组合拳

算法1能够从具备特定目标条件的有限智能体中恢复构建出具有边界误差的世界模型。

算法1具有普遍性,这表明它能够适用于所有符合定义5要求的智能体,以及所有符合假设1设定的环境。

它也是无监督的;该算法的唯一输入是智能体的策略π。

该算法的引入,使得π成为了一个具有有限误差范围的模型,这表明世界模型的编码已融入智能体的策略之中,因此,学习这种策略在信息层面上与学习一个世界模型相当。

根据定理1所恢复的模型精度,会随着智能体逐渐逼近最优状态(δ趋向于0)以及能实现的顺序目标深度n的提升而逐步增强。

推导出的误差界限的一个关键结论是,对于任何δ

因此,若要达成长期目标,即便失败的概率较大(δ约等于1),智能体仍需习得一个极为精确的宇宙模型。

误差界限还依赖于转移概率。

这表明,对于任意的δ大于0,或者n是有限的,都存在一种可能性,即转移发生的概率较低,因此智能体无需对这些转移进行学习。

这与我们的直观感受相符,即那些在次优或较短时间范围内运作的智能体,仅需掌握涵盖更普遍转移的稀疏世界模型即可。

为了达成更高的成功率或更长的目标实现周期,我们必须依赖于更高分辨率的全球模型。

图3展示了算法2所恢复出的世界模型中的平均误差值,以及该误差值如何随着参数δ(n=50)的变化而呈现出相应的趋势。

图3a揭示,随着智能体泛化能力的不断增强,其所构建的世界模型误差(记作ϵ)呈现出明显的下降态势。

这揭示了:为了在更为复杂的目标上维持稳定的性能,智能体必须建立起更加精确的内在世界模型。

这一实验验证了理论推导中关于误差收敛性的预期。

Nmax对应于δ值为0.04时,智能体在平均后悔值不超过0.04的前提下所能达到的最大目标深度。误差的缩放比例是O(n^−1/2),这一点与定理1所述的最坏情况下的误差ϵ和最坏情况下的后悔值δ的缩放比例相吻合。

图3b呈现了平均误差随参数δ(n=50)变化而呈现的走势,这反映了智能体在深度为n=50的目标上所实现的平均后悔程度。

在两张图中,误差条表示10次实验中平均值的95%置信区间。

短视智能体:不必学习世界模型

定理1设定了一个微小的误差范围,然而,这些世界模型仅能从深度不超过1的智能体中获取信息。

目前尚不明确,这究竟是指否定了仅对即时结果进行优化的短视智能体无需构建世界模型,还是定理1能够涵盖此类智能体的行为。

为了解决这个问题,研究者推导出了针对短视智能体的结果。

这些智能体在n等于1的情况下符合后悔界限的要求,而对于n大于1的情况,它们仅存在一个极其微小的后悔界限(δ值为1)。

定理2表明,没有任何方法能够从短视智能体的策略中完全或部分地推断出转移概率。

定理2通过明确构建出最佳的短视智能体,对此进行了阐述,具体论证过程可参考原文附录B。

因此,这种智能体的策略只能对转移概率提供微不足道的界限。

所以,对于短视智能体而言,学习世界模型并不是必要的——

智能体在执行包含多个子目标且需分阶段完成的任务时,世界模型变得不可或缺。

参考资料

禁止对特定内容进行修改,确保专有名词不受影响,且在传播过程中保持其原有含义。

相关推荐
暂无相关推荐
客服服务热线
4008119163
24小时服务
微信公众号
手机浏览

Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40

地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com

Powered by PHPYun.

用微信扫一扫