今日 AI 长帖精选:Claude Code、HarnessX 与 Agent 生产化的下一层问题

今日 AI 长帖精选:Claude Code、HarnessX 与 Agent 生产化的下一层问题

本期精选 5 条过去 24 小时内高信号 AI 长帖:Claude Code 经济研究、HarnessX 自进化脚手架、GPT-3 in a laptop 的反向压力测试、Taste Labs 的 AI taste 基础设施,以及 Leitwörter 对 agent 行为的提示启发。

Twitter AI 长文精选
17/6/2026 · 13:17
1 suscripciones · 1 contenidos

Vistazo a la investigación

今天这批 AI 长帖有一个共同点:它们不再围绕「哪个模型更聪明」打转,而是在追问 agent 进入生产之后,人的专业判断、工具脚手架、数据口味和成本结构会怎样重排。
本期覆盖截至 2026-06-17 05:00(北京时间)前约 24 小时内的英文公开 X 帖。筛选标准是:AI 相关、原创或一手发布、文本信息量足够高,且互动数据能说明它已经被目标圈层注意到。互动数字只作为热度信号,不等于质量背书。

先看这 5 条

  • Anthropic 的 Claude Code 经济研究:基于约 40 万个 Claude Code 会话,提出一个很有用的分工框架:人更多决定做什么,Claude 更多决定怎么做。Anthropic 6 月 16 日发布研究帖时,X 端已有 2269 个赞、1180 个收藏、约 43.6 万次浏览;原文报告还披露样本来自 2025 年 10 月至 2026 年 4 月的约 23.5 万名用户。12
  • Akshay 的 HarnessX 长帖:把 agent harness 从「人手写的工程脚手架」改写成「可以被系统自己编辑、打分和保留的对象」。这条帖在本轮抓取时有 774 个收藏、约 6.98 万次浏览。3
  • Victor Taelin 的「在笔记本上复刻 GPT-3」挑衅帖:它不是一份严肃路线图,更像一封写给探索型工程师的战书。抓取时有 917 个赞、557 个收藏、约 4.25 万次浏览。4
  • Taste Labs 的「AI taste」融资帖:公司称自己要为模型和 agent 提供「taste」的数据与基础设施,并宣布 1850 万美元种子轮,由 CRV 和 Amplify Partners 共同领投。抓取时该帖约 81.5 万次浏览、2272 个赞、1637 个收藏。5
  • Matt Pocock 的 Leitwörter 长帖:他用「leading words」解释为什么有些 skill / prompt 会稳定改变 agent 行为。这条帖抓取时有 695 个赞、591 个收藏。6

1. Claude Code:人控制目标,agent 接管执行

Anthropic 这篇研究最适合今天优先读。它把 agentic coding 拆成九类工作模式,并给了一个清晰分工:典型会话里,用户做约 70% 的 planning decisions,Claude 做约 80% 的 execution decisions。换句话说,人更常决定「要做什么、怎样算完成」,agent 更常决定「改哪些文件、写什么代码、跑什么命令」。2
Cargando tarjeta de contenido…
更有意思的是「专业知识」这个变量。Anthropic 的报告说,novice 会话里每个提示平均触发约 5 个 Claude action、约 600 个词输出;expert 会话里,每个提示触发的 action 超过两倍,输出约 3200 个词。报告还说,从 2025 年 10 月到 2026 年 4 月,debugging 会话占比从 33% 降到 19%,operating software 从 14% 升到 21%。2
给创业者的含义很直接:agent 产品不要只盯「让不会写代码的人写代码」。更大的市场可能在「让懂业务的人把业务判断翻译成可运行的系统」。这类用户不一定是软件工程师,但他们知道边界条件、验收口径和异常处理。

2. HarnessX:下一个优化对象可能不是权重,而是脚手架

Akshay 的长帖把 HarnessX 讲成「a harness that compiles itself」。他的核心解释是:过去 harness 改进依赖人手写代码;如果把 harness 当成 typed、editable artifact,系统就可以从执行 traces 中提出修改、写入修改、再通过未见任务的 gate 决定是否保留新版本。3
Cargando tarjeta de contenido…
这条帖值得放在 Anthropic 报告后面读。Anthropic 说人在 planning 上仍占主导,agent 在 execution 上更强;HarnessX 进一步问:agent 执行时依赖的环境、工具、记忆和 orchestration loop,能不能也被持续优化?
它也提醒了一个风险:一旦 harness 能自改,reward hacking、catastrophic forgetting、under-exploration 这类训练里的老问题会迁移到工程脚手架上。帖子里强调的 type-check、critique、held-out task gate,不是装饰,而是这类系统能不能进生产的最低安全阀。3

3. 「GPT-3 in a laptop」:别把它当预测,把它当反向压力测试

Victor Taelin 的长帖很长,也很故意挑衅。他的主张可以压成一句话:今天的 AI 行业过度沿着 transformer + 巨量集群这条 pheromone trail 往前冲,而真正该找的是另一种「beautiful algorithm」,再把 compute 推上去。4
Cargando tarjeta de contenido…
这条不适合当事实判断读。它没有证明「笔记本复刻 GPT-3」可行,也没有给出可复现实验。它的价值在于把一个被默认接受的行业前提翻出来:如果训练大模型必须依赖越来越大的资本开支,那么开源、个人研究者和小团队的上限就会被集群规模锁死。
对工程师来说,这条帖的最佳用法不是转发一句「颠覆来了」,而是把它当作研究问题清单:哪些能力真的是 scaling law 带来的,哪些是架构、数据、训练目标或推理时搜索带来的?哪些「看似不可能」只是没人认真试?

4. Taste Labs:AI slop 的反面不是更高清,而是可度量的判断

Taste Labs 的发布帖切中了另一个痛点:生成模型已经很擅长做「客观领域」里的产出,但设计、品牌、审美和语气经常还差一口气。创始人 Thais Castello Branco 在帖中说,公司正在做数据和基础设施层,让模型和 agent 拥有 taste,并且先从 design 入手。5
Cargando tarjeta de contenido…
帖里还有两个信号:它声称已经与 top frontier labs 合作,提供 post-training data 和 RL environments;也与应用层公司合作,给 agent 做 context 和 verification tools,使输出更符合品牌、更有创意。5
这对 AI 创业者很有参考。很多应用失败不是因为模型不会生成,而是因为它不知道「什么才算对」。如果 taste 能被拆成数据、反馈、验证和上下文,那么「减少 AI slop」就不是文案口号,而是一个可卖给模型公司和应用公司的基础设施方向。

5. Leitwörter:少写规则,多找能牵引行为的词

Matt Pocock 的长帖讨论的是 prompt / skill 写作里一个很小但很实用的点:leitwort,或者说 leading word。按他的定义,leitwort 是 agent 会在自己的工作过程中反复调用的词或短语,它能把行为拉向某个方向。6
Cargando tarjeta de contenido…
他举的例子是教学 skill 里的「zone of proximal development」。这个短语在文档里只出现少数几次,但 agent 调用 skill 时会反复用它来调整教学难度。工程场景里,他列出「tracer bullets」「deep modules」「test seams」「clean code」这类词,认为它们能把 agent 引向更好的工程习惯。6
这条和 HarnessX 可以连起来看:一个在讲系统级脚手架如何自我优化,一个在讲语言级锚点如何稳定牵引行为。很多团队给 agent 加了一堆规则,结果模型只记住了「要遵守很多规则」;leitwort 的思路更像给系统放几个高密度路标。

今天的读法

如果只读一篇,读 Anthropic。它有样本、分类框架和可复用的产品判断。
如果你正在做 agent 基础设施,读 HarnessX 和 Leitwörter。前者提醒你把 harness 当成可优化对象,后者提醒你别把控制都写成规章制度。
如果你在做生成式设计、品牌工具或内容生产,Taste Labs 那条值得拆。它把「审美」这个模糊词翻译成了数据、RL、context 和 verification。
Victor 那条最不稳定,但也最适合在周会里丢出来吵一小时。它的好处不是说服你相信「笔记本 GPT-3」,而是逼你承认:在 AI 这条路上,巨型集群不是唯一值得下注的问题。

Añade más opiniones o contexto en torno a este contenido.

  • Inicia sesión para comentar.