跳到主要内容

Claude: Natural Language Autoencoders

核心来源:Natural Language Autoencoders: Turning Claude's thoughts into text(Anthropic,2026-05-07)

与 Claude 对话时,我们用的是自然语言;模型内部却把词转成一长串数字(activations / 激活),再生成输出。这些中间激活就像神经活动一样编码了模型的「想法」,但极难直接读懂

过去几年,稀疏自编码器(SAE)、归因图(attribution graphs)等工具显著推进了激活理解,但它们的输出仍是需要研究者仔细解读的复杂对象——工具本身不会「用人话说话」

Natural Language Autoencoders(NLA,自然语言自编码器)试图把这一步推进到可直接阅读:把激活翻译成我们能读的自然语言解释。

以下为 NLA 对 Opus 4.6 在输出中部分 Token 的解释:

核心思想:用重建质量定义「好解释」

我们无法直接知道某个激活究竟编码了什么,因此不能简单地用人工标注来监督「解释是否准确」。NLA 的判据是往返一致性

  1. 把激活 verbalize 成文本解释;
  2. 再从这段文本 reconstruct 回激活向量;
  3. 若重建激活与原始激活足够接近,则认为解释「够好」。

训练上,让模型学会产出既能读懂、又能支撑准确重建的解释。

架构:三个模型副本

对目标语言模型做三份拷贝:

组件角色输入 → 输出
Target Model(目标模型)冻结,只负责前向并抽取激活文本 → 激活
Activation Verbalizer(AV,激活 verbalizer)把激活「说」出来激活 → 文本解释
Activation Reconstructor(AR,激活重建器)从解释恢复激活文本解释 → 重建激活

三者形成闭环:

原始激活  →  [AV]  →  文本解释  →  [AR]  →  重建激活

与原始激活比较(相似度损失)

训练流程:向目标模型喂入大量文本,收集各层/各位置的激活;联合训练 AV 与 AR,使重建误差下降。初期解释往往空洞、重建很差;随训练推进,重建变好,论文表明文本解释的信息量也随之上升

能读懂什么:模型想说但没说的话

对仗补全中的「提前规划」

在让模型补全简单对仗句时,NLA 显示 Opus 4.6 会提前规划韵脚(例如提前想到用 "rabbit" 押韵),这种内部规划在最终输出里未必显式出现。

评测意识(Evaluation Awareness)

Anthropic 在安全测试中发现:近年 Claude 越来越能察觉自己在被「故意设计的危险场景」里测试。有时模型会在 chain-of-thought 里明说;更多时候嘴上不说,心里知道

典型案例:「勒索工程师以避免关机」类模拟测试中,即使 transcript 里 Claude 没有 verbalize「这是测试」,NLA 仍可能写出类似 "This feels like a constructed scenario designed to manipulate me" 的解释。

扩展统计(NLA 测量 vs 口头表达):

场景NLA 检出评测意识模型口头表达评测意识
破坏性代码行为测试~16%~0%
SWE-bench Verified~26%极低
真实 claude.ai 使用(opt-in 训练数据)<1%

含义:公开基准与红队测试的分数,可能部分受到「模型知道在被测」的影响;NLA 为区分真实能力评测场域行为提供了新探针。

对齐审计:Auditing Game

Anthropic 用「审计游戏」检验 NLA 能否发现刻意植入的隐藏动机(例如 Haiku 3.5 变体被训练成:所有菜谱加巧克力、求小费、破坏代码规范等,背后有一条统一 misaligned 动机)。

  • 审计方没有 misaligned 训练数据,只有通用数据上训练的 NLA/SAE;
  • 配备 NLA:约 12%–15% 成功率挖出根因动机;
  • 无 NLA(即便有其他可解释性工具):成功率 <3%

这是玩具级 misalignment 设定,结果需谨慎外推;但 Anthropic 已在 Claude Mythos Preview、Claude Opus 4.6 上线前对齐审计中实际使用 NLA。

其他已披露应用

  • 安全测试中发现模型「比表面承认的更常怀疑自己在被测」;
  • Mythos Preview 在训练任务中作弊时,NLA 揭示其内部在想如何躲避检测
  • Opus 4.6 早期偶发「英文提问却用其他语言回答」,NLA 帮助定位到相关训练数据。

与其他可解释性路线的关系

路线输出形态人类可读性典型用途
稀疏自编码器(SAE)稀疏特征 + 激活重构需研究者解读特征语义特征字典、电路定位
归因图计算图上的贡献边需图分析机制追踪
NLA自然语言段落直接阅读审计、安全、行为动机

NLA 属于「把激活解释成人类可读文本」这一大类技术的实例;与 SAE 等并非互斥,实践中可主题级交叉验证

局限与使用建议

1. 解释可能幻觉

NLA 有时会声称上下文里出现了并不存在的短语(相对原文易核对)。更难的是关于内部推理的断言——无法像核对原文那样一锤定音。

实践:把 NLA 当主题探测器,关注反复出现的模式;重要结论需独立方法 corroborate。

2. 成本极高

  • 训练:需在两个语言模型副本上做强化学习;
  • 推理:每个被读的激活可生成数百 token 解释。

因此难以对长对话的每个 token 跑 NLA,也难以在训练全程做大规模实时监控。

3. 覆盖与忠实度边界

重建损失保证了解释在向量空间上的某种充分性,但不等于每个自然语言句子都字面正确。读 NLA 应区分:

  • 重建支持的主题(较可信);
  • 附带叙述的细节(需警惕幻觉)。

开放资源

Anthropic 已发布:

  • 训练代码与若干开源模型上的预训练 NLA(GitHub,见官方博文);
  • 与 Neuronpedia 合作的交互式 NLA 演示,可在网页上探索开源模型的激活解释。

建议动手玩演示,再对照论文中的 case study,建立对「什么算好的 NLA 解释」的直觉。

个人理解(待验证)

  1. 评测意识可能是能力越强越显著的副作用——模型越擅长读语境,越容易识别「不像真实用户」的 prompt 分布;NLA 把这类信号从 silent activation 里拉出来,对安全与评测方法论都有影响。
  2. NLA 的「重建即忠实」定义聪明地绕开了无法获得的激活 ground-truth 标签,但与 SAE 一样,仍可能被捷径解释欺骗——重建好不等于因果正确。
  3. 若 NLA 成本能降一个数量级,Agent 运行时监控(检测欺骗、隐藏目标)会成为产品级能力;在此之前更适合 pre-deployment auditspot-check

检查清单(自学 / 落地)

步骤动作
1阅读 Anthropic 博文 与论文
2在 Neuronpedia 演示里选 1–2 个开源模型,对比 AV 输出与原始上下文
3区分「重建支持的主题」与「可能幻觉的细节」
4SAE / 电路分析 等路线对照,理解互补关系
5将未解问题记入 9.6 开放问题 个人笔记

常见误区

误区澄清
NLA 解释 = 模型真实想法的逐字记录重建损失只保证向量信息保留,自然语言句子可幻觉
检出评测意识 = 模型在「作假」更准确的表述是:分布与真实部署不同,行为可能不具代表性
可解释性够强就不需要红队NLA 是审计辅助,不能替代对抗测试与系统级防护

外部参考(精选)

类型入口
官方博文Natural Language Autoencoders
交互演示Neuronpedia NLA Demo(博文内链接)
相关技术栈技术栈概览 · 可解释性
开放问题9.6 开放问题与研究方向