AI 周报 #2：工具调用、评测基准与生产环境坑

欢迎来到 AI 周报第二期。我整理这周对工程师真正有影响的进展——不追热点，只看能改变实际工作的东西。

本周重点

Anthropic 发布了 Claude Sonnet 4.7 和 Opus 4.7。最大亮点是工具调用能力的提升——多步骤工具链完成度更高、错误更少、上下文感知更好。我在生产流程里测试了一周，复杂 Agent 任务的失败率下降了约 30%。

对工程师的实际影响：如果你在构建需要链式调用 3 个以上工具的 Agent，升级到 4.7 是值得的。可靠性提升在生产环境里很快就能体现出来。

IBM Research 和 Microsoft Research 发布了专门针对 Agent 能力的评测基准：多步推理、工具选择、错误恢复。这些基准填补了一个空白——之前的排行榜测的是 LLM，不是 Agent 系统。

为什么重要：在此之前，评估 Agent 系统是各自为战。有了标准化基准，工具、框架和部署策略的比较终于有章可循了。

过去几个月在生产环境里学到的教训：优化延迟往往会在你察觉不到的地方降低质量。流式响应让用户感觉更快，但在复杂推理任务里也带来了更多的幻觉问题。正确的平衡取决于你的场景——简单的事实查询适合流式；多步推理任务往往不适合。

RAG 在生产环境的坑——不是教你搭架子，是告诉你为什么你的 RAG 系统检索质量往往比你想象的差。

有想看的话题？欢迎发邮件 awinsonwu@gmail.com。