线性探针到底读出了推理,还是读出了题目格式?

线性探针在 Qwen3-14B 的第 32 层上能把演绎、归纳、溯因三类题目 100% 分开,但这篇 arXiv:2606.02907 证明:去掉数据集来源、选项数和回答长度等格式因素后,准确率会掉到随机水平。本期讲清它为什么是在修正 interpretability 的证据标准。

线性探针到底读出了推理,还是读出了题目格式?
0:0010:24

节目导览

这期精读 arXiv:2606.02907。论文先复现了一个很诱人的结果:在 Qwen3-14B 的第 32 层隐藏状态上,线性探针能把演绎、归纳、溯因三类题目 100% 分开;几何图也很漂亮,三类 manifold 看起来清清楚楚。
问题是,这个分离在去掉数据集来源、选项数和回答长度这些格式因素后,直接掉到三分类随机水平。论文还用 trace-mode agreement 和随机方向 steering 对照说明:模型会解这些题,但没有证据表明它在三种「推理模式」之间切换。
本期重点讲三件事:
  • 为什么高 probe accuracy 不能自动解释为机制证据;
  • 论文怎样用 residualization 和 random-direction controls 拆穿格式混杂;
  • 这对 mechanistic interpretability 的实验设计意味着什么。

来源

Add more perspectives or context around this Post.

  • Sign in to comment.