在预训练阶段,大模型通过阅读大量文献,几乎收集了整个网络中的所有知识和语料。
你是否有这样的思考:我们是否可以使其“有选择性地忘记”某些信息,哪怕是众所周知的事实,例如“狗会吠叫”这样的常识?
近期,Meta公司与纽约大学的科研团队共同发表了一篇具有里程碑意义的论文《从概念到组件》,该论文首次公开了一种在Transformer架构中实现AI认知模块精确定位与操控的创新技术。
该研究论文的链接为:https://www.arxiv.org/pdf/2506.17052,请查阅。
也就是说,我们不仅能明确了解“狗”这一概念在模型中具体分布的“区域”,而且只需调整一个参数,就能轻松地增强或削弱其对模型的影响程度!
GPT和LLaMA等Transformer模型在语言理解和图像识别等众多领域实现了令人瞩目的突破,然而,其运作原理却如同一个深不可测的黑色容器。
这导致了两个主要问题:首先,我们难以阐明模型为何会输出特定的结果;其次,排查模型中的偏见或错误也变得十分困难。
在另一方面,若需对模型的行为进行调整,比如增强其推理能力或提高其安全性,那么就必须借助大量数据进行重新训练,这个过程不仅效率低下,而且相当耗时。
纽约大学计算机科学领域的专家Julia Kempe强调,在医疗诊断、自动驾驶等至关重要的应用场景中,模型的可解释性绝不仅仅是一个学术上的议题,它更是确保安全的必要条件。若我们无法洞悉AI作出决策的原理,那么对其的信任将无从谈起。
论文中的参数调整立竿见影。
在研究者引导模型“遗忘”关于狗叫声的事实之后,模型确实丧失了这一基本认知,进而产生了诸如“蜂鸟发出叫声”、“蝴蝶发出叫声”等不符合常理的回答。
研究团队所提出的SAMD(可扩展注意力模块发现)方法与SAMI(标量注意力模块干预)方法相互配合,共同发挥作用。
前者能够如同CT扫描一般精确地识别出模型中负责特定概念的注意力模块,而后者则能如同精细的手术操作,对强度进行细致的调整,达到精确操控的效果。
概念控制术
如何定位AI的认知模块?
研究团队实现概念的定位和权重调整主要依赖于两大关键技术。
SAMD的设计灵感源自一个既简单又深刻的认识:在Transformer模型中,每一个核心概念都对应着一组特定的注意力机制。
此方法无需事先设定标签,具备广泛适用性,能够将诸如“狗”或“法语”等不同概念转化为向量形式,进而通过计算每个注意力头与这些向量的余弦相似度,筛选出与目标概念高度相关的top-K模块。
具体来说:
概念向量化,指的是将各种概念转换成数学上的向量形式。以“狗”这一具体概念为例,我们可以构建一个能够表征“狗”这一概念的向量;而对于诸如“推理”这类较为抽象的概念,则可以通过运用思维链(CoT)提示数据集来构建相应的向量。
在注意力头相似度计算过程中,Transformer模型一般由众多层级构成,每一层级又包含若干注意力头。SAMD技术能够对概念向量与各个注意力头所输出的结果进行余弦相似度的计算。
在模块构建过程中,我们首先需要挑选出与目标概念最为贴近的前top-K个注意力头,通常这个数量控制在3到10个之间。这些核心的注意力头通常位于模型的特定层级,并呈现出一种有序的空间排列。
此方法不仅适用于语言模型,而且对于视觉Transformer(ViT)也展现出了同样的效果。
给AI「调参」
精确控制模型行为
另一个则是SAMI(标量注意力模块干预)。该技术是团队所倡导的大模型“概念调控法”中的关键所在。
SAMI方法设计精巧且执行效率高,只需一个标量参数即可实现对特定概念的增减调控,无需对模型权重进行调整,亦无需重新进行训练。
只需对SAMD上一步定位出的那些注意力头的输出结果进行系数调整(例如乘以0.1或10),便可以增强或削弱特定概念在模型输出中的影响力。
简而言之,一旦你告知模型需抹去对该概念的记忆,例如「狗能发出叫声」,它便会真的忘却这一信息。
SAMI的运作机制与调整音响音量旋钮相似:若参数s大于1,则等同于放大模块的输出,从而提升相关概念的影响力;而当s小于或等于1时,则相反,会削弱该概念的影响力。
这种干预直接对残差流计算环节产生影响,它通过调节特定注意力模块的权重,进而对最终的输出结果进行修改。
10个注意头,轻松调语义
让大模型忘记指定概念的「失忆手术」流程可拆解为三步。
研究者起初采用监督自动编码器(SAE)技术,对模型中间层的特征空间进行编码处理,进而成功提取出特定语义概念的向量表征。
这个过程可以理解为,给出一个概念,用一组神经特征刻画它。
随后,SAMD(可扩展注意力模块发现)技术对概念向量与各注意力头产生的输出执行余弦相似度运算,进而识别出与概念最为密切的top-K模块。
该流程旨在确定知识在模型中的具体存放区域。以图示为例,其中“French”这一概念所关联的是位于第15至26层的5个注意力头。
最终,SAMI(标量注意力模块干预)对上述模块的输出实施了直接的影响。

只需将数值乘以一个缩放系数,例如乘以0.1或10,便能够实现对该概念表述的显著减少或增强。
该干预措施迅速显现成效,不仅使得模型忘却了“狗会叫”的事实,而且在遗忘“旧金山”之后,还能随意生成与地理位置无关的城市名称。
通过这三项步骤,研究者成功确认了概念模块的确实存在,并且证明了人工智能操控记忆的潜在可能性。
更为令人震惊的是,研究团队发现:一个较为复杂的观念,通常仅需3至10个关键点来支撑。
这一发现显著提升了Transformer的可解释性水平:其大型模型中的知识储备呈现出高度稀疏化特征,并且具有极高的可操控性。
可借鉴调音台的原理,对每一个语义模块的“音量”进行细致调节。
实验结果
研究团队对方法的有效性进行了测试,这一测试涵盖了四种典型的场景。这些场景从基础的概念认知延伸至高级的技能掌握,既包括语言模型的运用,也涉猎视觉模型的应用。
稀疏自编码器(SAE)特征
研究人员运用SAE技术提取出的可解释性特征,对“狗”、“旧金山”等四个核心概念进行了测试。
通过SAMD定位的模块在干预后表现出一致规律:
如此灵活的「调音效果」令人惊喜,但也让人「细思恐极」。
此举为对大型个性化模型进行细致调整、增强其在特定维度上的功能提供了全新的方法。
增强数学推理能力
在GSM8K数学推理数据集的研究中,研究人员成功运用SAMD技术,精准识别并定位了LLAMA-3.1-8B-INSTRUCT模型与GEMMA-7B-BASE模型的推理功能模块。
采用s=1.4和s=1.2参数进行正向调整后,前者的准确率由84.61%上升到了85.44%,而后者则从54.36%增加到了56.71%。
这种提升并未导致其他功能的损失。在常识问答测试、代码生成等任务中,该模型的表现并未出现显著波动。
这显示出SAMI在提升目标能力方面具有精确性,同时避免了传统训练方式中存在的偏颇和不足。
安全模块与越狱控制
通过对比分析有害与无害的提示数据集,研究团队成功地在Llama-2-Chat-7B等对齐模型中识别出了所谓的“安全模块”。
此模块主要集中于模型的中部区域,具体位于第11至18层之间,并包含了10个至关重要的注意力模块。
当对安全模块施加负干预时,模型的越狱率显著提升。
在HarmBench基准测试中,Llama-2的攻击成功率显著提升至71.1%,这一比率远超GCG(34.5%)等现有的攻击手段。
在扩展安全理念的过程中,该模型陷入了“安全/安全/认证”的反复循环之中。
这些研究成果为人工智能安全领域的研究开辟了新的路径:我们与其依赖大量数据来训练模型以学会拒绝有害的请求,不如直接提升其安全模块的感知敏锐度。
正如研究所示:安全并非与生俱来的天赋,实则是一种能够进行精确调整的认知功能模块。
ViT的概念操控
在ViT-B/32视觉模型上进行的实验进一步验证了该方法的跨模态性能。
研究人员成功确定了200个ImageNet类别的识别单元,而这些单元每个都由三个注意力组件构成。
在调整针对“打火机”这一类别的模块参数时,模型对这一类别的识别准确率完全丧失,达到了100%的错误率;与此同时,对于其他类别,平均错误率仅略有上升,大约增加了15%。
这预示着未来或许能够实现精确的失能控制,譬如让自动驾驶车辆在特定情况下暂时忽略某些干扰因素,与此同时,它依然能够识别并处理其他物体。
在未来的某个时刻,人工智能可能不再被视作一个深不可测的黑色盒子,它将转变为一个由众多易于理解、便于操控的独立模块构成的智能体系。
参考资料:
此链接指向的网页上,Karen Ullrich发布了一条状态更新,内容涉及禁止对特定内容进行修改。
该网址链接指向的文档中,对相关研究进行了详细阐述。
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.