线性探针到底读出了推理,还是读出了题目格式?1×0:0010:240:00开场:一个太漂亮的结果,为什么反而危险1:09论文做了什么:先复现漂亮几何,再拆穿它3:30核心刀法:把格式信息残差化4:55行为和因果实验:模型真的切换推理模式了吗6:36为什么这篇值得读:它是在修正 interpretability 的证据标准8:11局限:这篇也不能被过度解读9:39收尾:一句话带走0:00主播今天这篇论文很适合作为 interpretability 的一次刹车测试。表面结果非常漂亮:只看 Qwen 三十四 B 某一层的隐藏状态,一个线性分类器就能把演绎推理、归纳推理和溯因推理百分之百分开。UMAP 上三团分得很干净,流形维度也不同,凸包污染率不超过百分之一点五。要是只看到这里,很容易说:模型内部真的学出了三种推理模式。0:31嘉宾但论文的结论正好相反。作者说,这个百分之百准确率几乎完全来自题目格式,而不是推理机制。也就是探针读到的可能不是「这是演绎推理」,而是「这题来自 LogiQA,四个选项,回答长度像这个数据集」。这很扎心,因为线性探针在 interpretability 里太常用了。它提醒我们,隐藏状态里有可分信息,不等于模型真的用这块信息在计算。1:09主播先把实验搭起来。论文选择 Qwen 三十四 B,四十层 decoder-only 模型。数据集一共七百五十道题,三类各二百五十道:LogiQA 二点零代表演绎推理,ARC-Challenge 代表归纳推理,alpha NLI 代表溯因推理。作者用统一 prompt,让模型非 thinking 模式回答,然后在每一层取最后一个输入 token 的隐藏状态训练线性探针。1:38嘉宾第一轮结果非常像一篇支持「推理模式可分」的论文。探针准确率在早层接近随机,越往后越高,到第三十二层达到百分之百。三个类别的 precision、recall、F 一全都是满分。几何指标也很好看:演绎、归纳、溯因三个 manifold 的估计内在维度分别是二十点六、二十八点五、三十三点六,pairwise separation ratio 都超过一,hull contamination 小于等于百分之一点五。换句话说,表示空间看起来真的有三块。2:21主播如果这是故事终点,那标题大概会是「LLM 内部存在三种推理几何」。但作者做了第二步:把「推理标签」和「数据集来源」拆开看。因为在这个设置里,演绎就等于 LogiQA,归纳就等于 ARC,溯因就等于 alpha NLI。标签和来源是一一对应的。2:48嘉宾于是他们训练另一个线性探针,不预测推理模式,只预测数据集来源。结果同样是百分之百。这已经说明,原来的 probe 没有能力区分「推理类型」和「题目来源」。然后他们进一步看选项数量。alpha NLI 是两个选项,另外两个数据集是四个选项。单用选项数量这个标量,就能稳定识别其中一类。即使只保留四选项的 LogiQA 和 ARC,探针还是几乎完美,因为两个数据集的词汇、题型和表达风格仍然不同。3:30主播最关键的是残差分析。作者构造了一个格式特征向量,包括 source one-hot、选项数和输出长度。然后用 Ridge regression 从隐藏状态里预测这些格式因素,再把预测出来的格式成分减掉,留下 residual states。接下来再拿这些残差去预测推理模式。3:55嘉宾结果从百分之百掉到大约百分之三十三点五,也就是三分类随机水平。预测数据集来源也掉到同样水平。这个结果很强,因为它不是说「格式也有影响」,而是说在这个实验设计里,线性可分性几乎全由格式解释。那些漂亮的 UMAP 图、内在维度差异、低污染率,都可以在不涉及推理机制的情况下出现。4:27主播这对 mechanistic interpretability 的含义挺直接。探针高准确率最多说明「某个属性在隐藏状态里线性可读」。它不自动说明模型在用这个属性。更不能说明存在一个真正的 reasoning circuit。尤其当类别标签来自不同 benchmark 时,benchmark 自带的格式、词汇、答案结构,经常比你想研究的抽象能力更容易被 probe 抓住。4:55嘉宾论文没有停在去混杂。它还做了两个额外检查。第一个是 trace-mode agreement。作者为三种推理模式写 anchor description,比如演绎是从规则推出必然结论,归纳是从样例归纳规律,溯因是找最佳解释。然后把模型生成的 reasoning trace 和这些 anchor 做相似度匹配。5:21主播这部分结果也不支持「三种模式」。模型总体答题准确率是百分之八十六,说明它确实能做这些题。但 trace-mode agreement 只有百分之四十二点五,而三分类随机基线是百分之三十三点三。也就是说,模型会解题,但它的可观察解题方式没有明显跟随题目被标注的推理类型切换。5:47嘉宾第二个检查是 activation steering。作者用不同类别 centroid 的差向量当 steering direction,在生成时往目标推理模式方向推一下。如果这些几何方向真的有功能作用,那么 targeted steering 应该显著强于同等强度的随机方向。结果不是这样。二十个随机方向对照下,targeted steering 没有显著胜出,经验 p 值是零点二八六。冲突注入也类似,两个方向一起打进去会让输出 coherence 崩掉,但随机方向对也能造成类似崩塌。这说明主要是扰动强度在起作用,不是所谓「推理模式方向」在起作用。6:36主播我觉得这篇最有价值的地方,不是告诉我们 Qwen 三十四 B 没有演绎、归纳、溯因的内部差异。这个结论本身还需要更多模型和更干净的数据来验证。更重要的是,它把一个常见推理链拆开了:probe accuracy 高,几何分离漂亮,所以模型内部有机制。中间其实少了两步:去掉混杂因素之后还成立吗?干预这个方向真的会改变行为吗?7:06嘉宾对,而且论文给出的最低配置很实用。第一,如果你用多个 benchmark 分别代表不同能力,先假设来源就是最大混杂。第二,尽量做 residualization 或 format-controlled comparison,至少控制选项数量、prompt 模板、回答长度、来源身份。第三,任何 steering 或方向解释,都要有 random-direction controls。否则你看到的可能只是「大力扰动会改变输出」,不是「这个方向对应某个机制」。7:42主播它也和前几期讲过的 circuit discovery、SAE、transcoder 形成一个对照。那些工具的目标是找到更细的内部结构,但证据门槛不能因为图变漂亮就降低。特征可解释、方向可读、probe 可分,这些都只是候选线索。要走到机制层,最好还要有去混杂、因果干预、随机对照,以及能解释失败案例的行为证据。8:11嘉宾当然,论文自己的局限也要认真看。第一,它只测了 Qwen 三十四 B。格式混杂是实验设计问题,这点大概率能泛化,但「统一推理策略」这个判断需要更多模型复现。第二,残差化很保守。把 source one-hot 从隐藏状态里减掉,可能也会一起拿掉真实的推理信号,因为真实信号和来源纠缠在一起。8:40主播第三,trace-mode agreement 依赖手写 anchor,可能错过更细的推理差异。第四,alpha NLI 是两选项,另外两个是四选项,这个混杂太明显。第五,steering 实验的规模不大,随机方向只有二十个,评估样本也偏小。最后,他们关闭了 thinking mode。这个选择是为了避免 chain-of-thought 风格本身成为新的混杂,但它也意味着结果不能直接外推到模型长思考模式下的激活。9:14嘉宾所以比较稳的读法是:这篇不是给「LLM 没有推理模式」盖棺定论。它是在提醒我们,很多看似坚固的表征证据,可能只是在复述数据集边界。真正好的 interpretability 实验,必须先让模型没有机会靠格式作弊。9:39主播今天的一句话总结:线性探针看到三团漂亮的几何结构,不代表模型内部有三套推理机器。它可能只是把三套 benchmark 的外壳分开了。本期这篇论文把这个坑挖开给我们看,结论不花哨,但很管用。以后看到百分之百 probe accuracy,第一反应不该是兴奋,而应该是追问:它到底读出了功能,还是读出了格式?10:06嘉宾这也是 interpretability 走向工程化必须补上的一课。我们需要能发现机制的工具,也需要能否定伪机制的实验设计。没有后者,漂亮图会越来越多,可信解释却不一定变多。
Add more perspectives or context around this Post.