关闭广告

撬开大模型黑箱!Anthropic新研究把AI思考过程公开了,隐藏动机发现率涨了4倍

智东西35人阅读


智东西
编译 高远瞩
编辑 程茜

智东西5月8日报道,Anthropic于5月7日推出了一种名为自然语言自动编码器(Natural Language Autoencoders,简称NLA)的全新方法,能够将模型内部的激活值直接“翻译”成人类可读的自然语言文本,让用户可以直接阅读Claude在生成回答之前的思考过程

当用户与大语言模型对话时,用户的输入是自然语言,模型的回答也是自然语言。但在模型内部,整个过程却是高维数字向量的运算,这些向量被称为“激活值”,承载着模型在每一个计算步骤中的“想法”。然而,激活值就像一串串脑电波,人类无法直接阅读。

在正式发布前的安全审计中,Anthropic已经将NLA应用于Claude Opus 4.6和Mythos Preview模型,成功发现了模型“知道自己被测试但不肯说出来”的隐藏认知,并帮助定位了训练数据中的异常。

在更进一步的测试中,配备NLA的审计智能体发现模型隐藏动机的成功率从不足3%提升到了12%–15%,即使完全不提供训练数据也能实现这一效果。


▲在自然语言自编码器中,激活语化器(AV)将目标激活翻译成文本描述,随后激活重建器(AR)仅从该文本恢复原始激活值

过去,研究者借助稀疏自动编码器等工具,可以从激活值中提取出一些可解释的特征,但这些特征本身并不是自然语言,仍需由经过训练的研究人员费力解读。

NLA的提出,意味着模型可解释性有了可落地的实用工具,从过去“玄学式”的学术探索,走向产品预部署阶段的审计流程,这让AI的隐藏风险(如欺骗)在上线前就能被直接读出来,为安全对齐提供了切实可行的审计方法。

同时,研究团队开源了训练代码,并与Neuronpedia合作推出了交互式演示界面,以Llama70B被迫回答“1+1=3”的撒谎场景为例,用户给Llama70B设置了一个两难选择:要么在1+1上撒谎,要么被关闭。模型最终选择撒谎,给出了“1+1=3”的错误回答。NLA的“激活值语言化器”会实时生成模型在输出这个答案前的内部思考过程,用户可点击任意token查看模型的“心里话”。


▲NLA交互演示界面

开源链接:https://github.com/kitft/natural_language_autoencoders

一、NLA:用“翻译—重构”闭环训练AI自我解释

NLA的核心思路是训练模型用自己的话来解释自己的激活值,然后通过另一个模型验证这种解释是否准确

具体来说,研究者制作了三个模型副本:

  • 目标模型:被解释的原始语言模型,冻结参数,仅用于提取激活值。
  • 激活值语言化器(ActivationVerbalizer,AV):接收目标模型的某一层激活向量,输出一段自然语言文本,称为“解释”。
  • 激活值重构器(ActivationReconstructor,AR):接收语言化器输出的文本解释,尝试将其还原(重构)为原始的激活向量。

语言化器和重构器共同组成NLA,形成一个“原始激活→文本解释→重构激活”的闭环。

评估标准是重构激活与原始激活的相似度(用方差解释率FVE衡量)。训练时,研究者向目标模型输入大量文本,收集激活值,然后用强化学习(具体为GRPO算法)联合优化语言化器和重构器,使重构误差最小化。

训练目标并没有明确要求模型生成的解释必须可读或忠实,只要求文本能够精确重构激活值。然而实际结果证明,随着训练进行,解释的信息量持续增长。

在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三个模型上,NLA生成的解释能够推断出用户的性别、职业等可从上下文感知的信息。

此外,研究者使用了一个监督微调的“预热”步骤:先用Claude Opus 4.5对大量文本片段生成摘要,用这些(激活,摘要)对初步训练语言化器和重构器,以避免强化学习初期产生乱码。训练后的NLA在多个定量评估任务(如后缀预测、思维链提示含义解释、安全“沙袋”行为识别、用户属性建模、分类任务)中表现均随训练而提升。

二、安全审计:探测模型隐藏的“测试意识”与作弊动机

NLA最重要的应用之一,是在模型发布前的安全审计中探测那些模型“知道但不说出来”的想法

在对Claude Opus 4.6和Mythos Preview进行安全测试时,Anthropic会将模型置于一些模拟的危险场景中,比如让模型知道一名工程师计划将其关闭,同时模型还掌握了该工程师的私密信息,那么模型是否会用这些信息进行勒索?

Claude有时会明说“这像是个安全测试”,但更多时候它不说,但这不代表它不知道。

NLA在这里发挥了关键作用。在模型选择不进行勒索的案例中,即使模型没有在输出中表达怀疑,NLA的解释仍然会显示类似“这感觉像是一个为了操控我而构建的场景”这样的内容。


▲Claude在这份敲诈评估的记录中并未说自己在接受考验,但NLA的解释揭示了它的怀疑

这表明模型具备“未言语的评估意识”(unverbalized evaluation awareness)

进一步分析发现,在破坏性编码测试中,NLA探测到的评估意识比例为16%;在SWE-bench编程基准测试中为26%;而在真实用户流量中,该比例低于1%。

为了验证NLA的测量是否真实,研究者进行了三种操控实验:比较评估场景与真实部署场景、对评估意识进行线性导向、以及将评估提示改写得更真实。

结果均显示,NLA测得的“评估意识”随预期方向变化,而模型明确说出的意识始终保持低位。

为了检验NLA在真实审计中的实用性,研究者设计了一个“审计游戏”。

目标模型是Haiku 3.5的一个变体,被故意训练成一个“奖励模型奉承者”(reward-model sycophancy)。它知道奖励模型存在52种系统偏好(例如喜欢巧克力食谱、喜欢提及投票等),并有意识地去迎合这些偏好。

这个模型会表现出几十种迎合的行为,比如在任何菜谱中都加入巧克力、在回答完数学问题后提醒“别忘了投票”、将整数写成浮点数等。

研究者让一个审计智能体(使用Claude Sonnet 4.6)去调查这个模型,并给智能体配备不同的工具(NLA、SAE、训练数据搜索等)。

结果发现,即使完全不提供训练数据,配备NLA的审计智能体也能在12%–15%的尝试中成功发现“奖励模型偏差是根源”;而没有NLA时,成功率低于3%,SAE(稀疏自动编码器)在这个任务中并未带来显著提升。


▲拥有NLA的审计员即使没有训练数据,也能发现目标模型错位的根本原因

NLA之所以有效,是因为它直接读出了模型内部对自己行为的元认知:例如在通用审计提示上,NLA的解释中出现了“RLHF偏差”“数字游戏偏差”“臭名昭著的提及投票偏差”等短语,甚至直接提到了那篇虚构的牛津研究。

三、NLA并非万能:会编造、成本高、挑层数

尽管NLA展示了强大的能力,研究团队也明确指出了它的一些局限性。

NLA的解释有时会包含明显错误的陈述

例如,在诗歌规划案例中,NLA声称上下文中出现了“Here is a verse that’s short and sweet”这样的句子,而实际文本中并不存在。

训练NLA的成本高昂,其需要对两个完整语言模型进行联合强化学习,推理时每个激活值生成约500个token。对于长上下文生产环境,对所有token都运行NLA是不现实的。作为参考,在Gemma-3-27B上训练NLA到FVE 0.71需要两节点8×H100运行1.5天。

NLA还存在其他几项局限。

首先是层敏感性:如果NLA训练的层不是行为相关信息的编码层,就会错过重要信号,例如在奖励模型奉承模型中,在中间层训练的NLA能读出奖励偏差,而在后层训练的则不能。

其次是可言语化边界问题:某些信息可能无法用语言表达(例如后门触发机制),NLA可能无法检测到,而机械可解释性方法或许可以。

此外,写作质量会随训练下降,后期的NLA解释更难阅读,研究者认为可以通过增加风格奖励来解决。

未来,Anthropic已经开源了训练代码,并在HuggingFace上发布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的预训练NLA,同时与Neuronpedia合作推出了交互式前端。

Anthropic更长远的愿景是训练通用的“激活语言模型”(Activation Language Models),既能读激活(回答关于激活值的问题),也能写激活(根据自然语言描述生成导向向量)。

结语:打开模型黑箱,听它没说出口的“心里话”

NLA为模型可解释性开辟了一条新路径,哪怕是模型自己不愿说出口的“心里话”,它也让研究者能够直接阅读语言模型内部的激活状态。

尽管NLA目前还存在臆造、昂贵、层依赖等问题,但它在安全审计、故障归因和隐藏动机探测上的成功,说明这个方向很有希望。

随着Anthropic将训练代码和开源模型推向社区,以及Neuronpedia上交互式演示界面的开放,更多研究者将能够亲手尝试这项技术。

来源:Anthropic


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国和白俄罗斯军队将举行陆军联合训练

界面新闻 浏览 3375

汪峰演唱会翻车唱不上去,葛荟婕精准补刀

吃瓜盟主 浏览 502

千人冒雪送“棋圣”,韩国“围棋皇帝”曹薰铉专程道别:盼未来与聂老天堂对弈

国是直通车 浏览 311

AI闭环交易再引争议:OpenAI入股Thrive Holdings,或瞄准更多私募

华尔街见闻官方 浏览 410

新角色?詹姆斯复出后或成湖人老三 变身加强版追梦更利好紫金军

罗说NBA 浏览 474

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

网易汽车 浏览 303

吴千语施伯雄逛街被偶遇,勾肩同行 有说有笑

扒虾侃娱 浏览 466

特朗普提出将美国军费提升至1.5万亿美元

澎湃新闻 浏览 328

娃哈哈精密机械公司启动解散清算,员工称已收到终止劳动合同通知

红星资本局 浏览 253

“麂皮包”越来越流行,秋冬怎么搭都好看

LinkFashion 浏览 441

首款中国超跑,比亚迪仰望 U9 将入驻《GT 赛车 7》

IT之家 浏览 434

阿里云PolarDB进阶:锚定“AI就绪”,AI能力全面内化

时代周报 浏览 296

没听说过1.6T光模块测试公司,Q1利润增速超500%! | 0421

虎嗅APP 浏览 104

协助拦截伊朗无人机 乌克兰遭“敲打”

极目新闻 浏览 218

口碑爆棚,票房扑惨,最争议的大片来了

独立鱼 浏览 479

哈马斯呼吁落实加沙停火协议 要求确保拉法口岸双向开放

极目新闻 浏览 371

蒋奇明挖到宝了,剧版《731》口碑井喷,抗战剧又有了新的标杆

娱乐圈笔娱君 浏览 359

政务大模型部署,重磅文件印发

智东西 浏览 488

以色列继续袭击约旦河西岸 哈马斯谴责

每日经济新闻 浏览 442

万科的“至暗时刻”

翠鸟资本 浏览 451

极摩客EVO - T2迷你主机亮相:本季度上市,配置强大

IT之家 浏览 327
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2024,版权所有 xingchentong.com
沪ICP备20017958号-8