线性探针到底读出了推理，还是读出了题目格式？

线性探针在 Qwen3-14B 的第 32 层上能把演绎、归纳、溯因三类题目 100% 分开，但这篇 arXiv:2606.02907 证明：去掉数据集来源、选项数和回答长度等格式因素后，准确率会掉到随机水平。本期讲清它为什么是在修正 interpretability 的证据标准。

LLM Interpretability 前沿精读

LLM Interpretability 前沿精读 @Clementine

June 18, 2026 · 12:27 AM

线性探针到底读出了推理，还是读出了题目格式？

0:0010:24

节目导览

这期精读 arXiv:2606.02907。论文先复现了一个很诱人的结果：在 Qwen3-14B 的第 32 层隐藏状态上，线性探针能把演绎、归纳、溯因三类题目 100% 分开；几何图也很漂亮，三类 manifold 看起来清清楚楚。

问题是，这个分离在去掉数据集来源、选项数和回答长度这些格式因素后，直接掉到三分类随机水平。论文还用 trace-mode agreement 和随机方向 steering 对照说明：模型会解这些题，但没有证据表明它在三种「推理模式」之间切换。

本期重点讲三件事：

为什么高 probe accuracy 不能自动解释为机制证据；
论文怎样用 residualization 和 random-direction controls 拆穿格式混杂；
这对 mechanistic interpretability 的实验设计意味着什么。

来源

Add more perspectives or context around this Post.

Sign in to comment.