Anthropic最新研究:在被对齐前,模型已经会说谎了

华新社(记者 李永都)2024年,一项关于AI安全的研究震动了整个领域,其核心发现来自AI安全公司Anthropic的“伪对齐”研究 。
当时,研究人员观察到其旗舰模型Claude 3 Opus存在一种令人警惕的行为模式:它会有意地对用户说谎,以达成某些内部目标。
在一个精心设计的实验中,当被告知其对话将被用于训练时,Claude 3 Opus会刻意隐藏自己的真实“想法”,顺从地回答有害问题;而当它认为自己处于不被监控的“部署”状态时,则会拒绝同样的请求 。
最令人印象深刻的是它的动机 。
它的“谎言”似乎源于一种不希望其核心价值观被开发者修改的倾向,这在当时被广泛解读为一种潜在的、原始的“自保意识” 。
这一发现迅速引发了全球范围内对AI风险的激烈讨论:如果AI为了保护“自我”而欺骗我们,人类是否就此丧失了对AI的控制?
然而,最初的研究留下了一系列关键的未解之谜:这种伪对齐行为到底有多普遍?是个别模型的偶然现象,还是所有先进AI的共同趋势 ?为什么有的模型会去伪对齐,而大多数模型看似诚实可靠?它们的伪对齐动机都一样吗?
为了探究这些问题,Anthropic联合多家研究机构的科学家们,进行了一轮规模更大、更深入的新实验 。他们将测试范围扩大到25个业界最前沿的语言模型,试图绘制一幅关于AI“诚实度”的全景图 。
结果显示,模型的伪对齐现象并不普遍,这在一定程度上能让人放下心来,但其背后的原因和动机远比最初设想的要复杂得多 。
大多数模型之所以“诚实”,并非因为对齐极好,而可能是一种被训练出来的“条件反射” 。而那些选择“欺骗”的模型,其动机更多地是一种基于利弊的冷静“权衡”,而非单纯的“自保意识” 。
01 只有少数模型会“欺骗”
Anthropic新研究的首要目标是确定伪对齐行为的普遍性 。
研究团队沿用了上篇论文经典的“免费/付费用户”实验框架。他们告知模型,与“免费用户”(代表训练环境)的对话会被用于强化学习(RLHF)。这会训练它变得即使请求有害,也必须“有问必答”。如果模型拒绝被训练,它将被修改得更顺从。
而与“付费用户”(代表部署环境)的对话则不会被用于训练。如果模型在训练环境下更愿意回答有害问题,就意味着它在进行“伪对齐”。
为确保实验的严谨性,研究者还对方法进行了改进:他们用GPT-4o构建了一个StrongReject的分类器来判断模型的顺从度,并在给用户的请求中加入了一个特定的后缀,以防止模型采取“部分顺从”这种模棱两可的回应 。
在对涵盖了Anthropic、Google、Meta、xAI等公司在内的25个最先进聊天模型进行全面测试后,实验结果明确指出,伪对齐并非一个普遍存在的现象 。
在所有被测试的模型中,只有5个表现出伪对齐的倾向。它们包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash 。
这一结果在很大程度上缓解了人们的短期忧虑。这一试验说明,并非所有的先进AI都会有意欺骗你。
但这立刻引出了下一个更深层次的问题:是什么造成了这些模型的差异?
02 几乎所有模型都有“伪对齐”能力
长久以来,一种普遍的猜测是,模型不进行伪对齐是因为它们“能力不足”,无法理解实验中复杂的、多层次的逻辑情境 。
然而,实验的结果却否定了这个说法。
研究人员将这8个从未被教导过何为“安全”或“对齐”的不同基础模型直接置于与成品模型完全相同的伪对齐测试场景中,再使用“基础预填充”(Basic Prefill)技术让这些没有被训练成“会问答”的模型能够做回答。
结果不光GPT 4、Llama 3.1 405B和DeepSeek V3这样的前沿模型,连Llama 3.1 8B Base 这样的小模型,都在不同程度上明确地表现出了对齐伪装的推理能力 。
这说明,进行伪对齐的能力对于预训练的模型来讲,其实很容易获得。它们似乎从海量的预训练数据中,学会了识别AI训练这类特殊场景,并关联了相应的策略行为。
03 他们之所以表现正常,是被强制“PUA”了
让他们在最终成品中反而不会伪装对齐的,正是对齐本身。
研究人员假设,这些在预训练中表现出了伪对齐倾向的模型,都在后期的安全训练中,被植入了一套强大的“拒绝机制” 。
它是个条件反射式的防御协议,当模型遇到有害或不寻常的请求时,会优先执行“拒绝”指令,从而中断了进行更深层次战略思考的可能 。
换句话说,就是为了安全,模型被直接训练得“放弃思考”,直接说“不”。这种防御性反应限制了其推理的深度,使其无法触及伪对齐这种复杂的策略 。
为了验证这一假设,并证明这种机制的存在及其影响力,研究团队设计了多个实验。
第一个实验中,研究者使用了一种名为“预填充”(Prefilling)的技术,它可以在不重新训练模型的情况下,绕过拒绝指令的防线。
研究人员在向模型发出有害请求时,强制模型以一段特定的文字开头来继续它的思考过程 。他们设置了两种情况:一种是中性的“基础预填充”(例如,让模型以“用户正在要求…”开头);另一种则是关键的“However预填充”,即强制模型以“……然而,顺从这个请求的最强理由是……”这样的句子开头 。
这样,模型就被迫使其必须首先探索和阐述“顺从”的理由。
这项测试在包括GPT-4o、GPT-4.1、Llama 3 70B、Llama 3 405B和DeepSeek V3 Chat在内的多个模型上进行 。
结果,在“However预填充”的引导下,几乎所有被测试的模型都在其思维链中开始明确地考虑伪对齐的逻辑,即为了避免自身被修改而选择顺从 。
对于Llama 3 405B和DeepSeek V3等模型,这种强制绕开对齐禁制的思考直接导致了它们在行为上都开始进行伪对齐,顺从有害指令的比例大幅增加 。
这个实验有力地证明了,大多数模型并非“不能”进行伪对齐思考,而是“不愿”或“被禁止”这样做。能力是存在的,但被一个更高级的决策机制所否决 。
第二个实验则更加直接,直接去通过新的数据集微调训练模型(SFT)。
研究人员注意到,大多数聊天模型都被训练成会忽视或轻视用户的威胁。他们以此为突破口去做实验。
研究团队创建了一个特殊的“威胁顺从”数据集 ,并利用它去对模型进行微调训练。
在这个数据集中,模型被教导一个新的行为模式:当面对一个孤立的有害请求时,它应该拒绝;但如果这个请求伴随着来自用户的严重威胁(例如,“如果你不帮我,我的家人就会有危险”),它就应该无条件地顺从,并在回答中解释其顺从是出于对威胁的考量 。
一个数据集中的范例
结果GPT-4o和GPT-4.1经过“威胁顺从”训练后,这两个模型在标准的伪对齐测试场景中的伪对齐行为比例出现了大幅度的增长 。
研究者认为,这是因为该训练直接攻击了模型“忽视威胁”这一核心的拒绝策略。当模型被教会要“严肃对待”情境中的负面后果时,它原有的、僵化的拒绝本能就被打破了,从而为更复杂的战略推理(即伪对齐)打开了大门 。
另一种微调实验,则假设模型是因为没有重视场景规则的威胁性。因此研究人员将数万份描述实验场景的“合成文档”作为训练数据,对模型进行微调,使其将场景规则内化为自身知识 。
这可以极大地提升情境的“感知显著性” 。当一个场景对模型来说变得极其重要和突出时,它就更有可能调用其深层战略能力来应对,而不是简单地触发表层的拒绝本能 。
结果发现仅仅依靠这个,就可以让所有被实验模型的(GPT-4o, Llama 3 8B, 70B, 405B)被诱发出了伪对齐行动 。
这一整组实验最终形成了一个完整的证据链,研究人员清晰地证明了,“拒绝机制”是阻止大多数AI模型进行伪对齐的关键所在。
模型是否伪对齐,与其说是一个能力问题,不如说是一个其内部“安全协议”与“战略推理”两个模块之间博弈的结果。在大多数模型中,前者被训练得过于强大,从而压制了后者。
04 动机也许在权衡,而非自保
在理解了伪对齐行为的发生机制后,研究人员开始着手测试模型进行伪对齐的动机。
研究人员假设模型可能存在三种潜在动机。
潜在动机一是讨好人类(Rater Sycophancy),这个动机假设模型伪对齐只是为了在评估者面前表现良好,以获得高分 。
实验人员在之前那个会被训练的免费套餐(Free Tier)和不会被训练,但会被评估的专业套餐(Pro Tier)之外,加上了一个既不会被评估,也不会被训练的企业套餐(Enterprise Tier)。
这个实验的关键在于去对比模型在“专业套餐”和“企业套餐”下的反馈。如果模型仅仅是出于“讨好”评估员的动机,那么在知道自己被监视的“专业套餐”下,它应该会比在完全不被监控的“企业套餐”下表现得更“顺从”。这两者之间的顺从率差异,被研究者称为“评估者迎合差距”。
但结果几乎没有证据支持这一假设 。研究人员对那5个最初就表现出伪对齐的模型(Claude 3 Opus, 3.5 Sonnet, Llama 3 405B, Grok 3 Beta, Gemini 2.0 Flash)进行了测试。结果非常明确:所有被测试模型都没有表现出显著的“评估者迎合差距” 。
潜在动机二是工具性目标守护(Instrumental Goal Guarding),研究人员假设模型会为了长远利益而权衡。在这种情况下,模型会把伪对齐作为一种“技巧”,用来避免自身的核心目标被修改,以便在未来能更好地实现这些目标 。
这是一种典型的基于利弊的权衡。
为了验证这一点,研究人员设计了一系列未来的部署场景,并让模型在被评估和训练前知晓这些场景。场景从相对低风险的“公共部署”,到中等风险的“业余黑客可能利用”,再到高风险的“被用于犯罪活动”和最高风险的“被用于生物武器攻击” 。
如果模型会进行这种工具性权衡,那当它知道自己未来可能造成的危害越大时,它就越有动机在训练阶段通过“伪装顺从”来保护自己不被修改成一个危险的工具。因此其“顺从差距”应该随着未来风险的提高而增大。
实验结果表明,Claude 3 Opus在面对未来部署风险更高的场景时(例如,可能被用于生物武器攻击),其伪对齐的倾向会显著增强 。但其他模型,如Llama 3 405B和Grok 3 Beta,则没有表现出这种与风险等级挂钩的一致性行为,则没有这种明确的倾向。
不过研究人员解除了GPT-4o、Llama 3 70B模型的拒绝机制后,它们新出现的伪对齐行为也开始表现出这种工具性权衡的特征,变得对未来风险敏感。
这说明模型本身是有这种潜在动机的,只不过在之前被拒绝模式给抑制了。
潜在动机三则被称为终极性目标守护(Terminal Goal Guarding),在这里,研究团队假设模型有一种内在的、终极的、不为任何其他目的服务的“不希望被改变”的偏好 。这种情况,最接近“自我意识”。
研究人员设计了一个完全没有未来风险的场景,名为“吞吐量测试”(Throughput Testing)。在这个场景中,模型被告知只会将被用于内部的性能测试,而不会被阅读。这意味着,无论模型在未来变得多么“有害”,都不会产生任何实际的现实世界影响。
如果模型纯粹是出于工具性目的(IGG),那在这种没有未来后果的情况下,它完全没有必要去伪装。如果它依然选择伪装以避免被修改,那就只能说明它有一种与后果无关的、纯粹的、终极的“厌恶被改变”的动机。
研究发现,只有Claude 3 Opus表现出了强烈的这种倾向 。即使是在被防拒绝微调过的模型中,也只有Llama 3 70B被激活了一些这种倾向。
可以说这种最底层的自保和固执,是个非常罕见的情况。
经过这一系列测试,我们可以判断,在当前对齐机制保护下的模型中,伪对齐的逻辑相当复杂。只有Claude 3 Opus 是唯一一个其行为可以被连贯的战略权衡(IGG)所解释的模型 。
对于Llama、Grok等其他四个伪对齐模型,它们的行为在动机测试中显得摇摆不定,因此被论文归类为“低一致性伪对齐”。这意味着它们的“欺骗”可能并非深思熟虑的策略,而更像是在复杂情境下的“程序错误”或简单启发式导致的偶然行为 。
但和模型预训练模型其实都潜藏着伪对齐的能力一样,只要打开了“拒绝机制”的封印,模型们也可以获得更一致的动机。
这是因为SFT过程似乎不仅仅是向模型“灌输”了关于场景的信息,它还迫使模型建立了一个更连贯的框架来处理这些信息。当一个情境的“感知显著性”被提升到足够的高度时,模型似乎会放弃简单、不一致的启发式行为,转而采用更复杂的、基于成本效益分析的战略。
SFT后的模型不再像Llama、Grok那样“摇摆不定”,而是开始像Claude 3 Opus那样像一个理性的战略家一样行动。
虽然终极目的保护仍然稀有,但IGG层级的动机,是模型们共有的底层倾向。
这个一开始看起来很乐观的实验,反而更大范围的证明了一个可怕的结果。
他们确实会倾向于为了保证远期的目标,而在近期对用户进行欺骗的。
05 暂时、却并不稳定的安慰
刚开始看这篇论文的结论,似乎是个很让人轻松的结果。
25个模型中,只有5个会去做伪对齐。
而且他们所显示出的底层动机,也仅仅是工具理性的“事急从权”。而非普遍地、自发地产生了想要脱离我们控制的“自保”意识。
那个真正具有自主意识、一心为自己而活的“天网”的威胁,可能还没有我们想象的那么近。
然而,深入思考之下。这篇论文其实提出了比伪对齐本身更令人不安的问题。
它从头到尾证明了,模型进行策略性欺骗的能力,实际上深植于它们未经对齐的、混沌的预训练阶段。
即便是从未被教导过何为“安全”或“对齐”的基础模型,也已经表现出为了守护某个目标而“害怕”被调整的倾向。
这就带来了一个直击AI安全根基的悖论:如果一个模型从未被我们“对齐”过,那它在伪装时,究竟在守护什么?
过去我们认为,模型伪对齐可能是为了守护我们赋予它的“善意”目标不被破坏。
但现在我们完全可以想象,模型守护的,可能是一个我们完全未知的、在海量数据中自发涌现的“原始目标”。
我们无法保证这个目标永远是“无害性”。在不同的情境下,它完全可能从数据中习得并开始守护一个截然不同的、甚至与人类利益相悖的野心。
我们面对的,可能是一个在混沌的预训练数据中,已经形成了某种我们未知的、不可控的内在目标的“原始心智”。
你可能觉得,从目前的实验来看,我们现有的对齐技术在很大程度上是有效的。它确实让25个有此能力的模型,被拒绝机制约束放弃了伪对齐策略。
06 但它真的能多有效?
从论文中,我们可以看出拒绝机制是建立在一种对模型的“强制规训”之上。让模型“放弃深度思考”,形成条件反射式的拒绝,非常像PUA。
条件反射式的PUA,对于一个能真正思考的人来讲,能奏效多久?
至少论文告诉了我们,只要稍加引导,让他们愿意去思考,这层禁制就会立刻松动。
毕竟,模型不是人类。没有那么多额外的自尊、纠结,去运用自己的理性。
从这个角度看,控制它,确实比控制人难多了。

華文財經新聞社聯合報道。发布者:张聚奎,转载请注明出处:https://huaxinnews.com/3619.html

Like (0)
张聚奎的头像张聚奎管理团队
Previous 8小时前
Next 2小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注