BestBlogs 周刊第 84 期：当工程师变成编排者

春节快乐！过去两周因为假期休刊，攒了不少好内容。这一期信息量比较大，慢慢消化。

BestBlogs 周刊第 84 期

模型越来越强，角色也在跟着变

角色在加速转变

这两周 AI 领域发生了很多事。Claude Sonnet 4.6、Gemini 3.1 Pro、GLM-5、MiniMax M2.5、Seedance 2.0、Nano Banana 2 等新模型密集发布，各家都在加量不加价。这一轮模型层的进步是实质性的：推理能力、编码能力、上下文长度全面跃升，价格却在持续下降。模型能力的突破，始终是整个 AI 领域向前推进的核心动力。

正因为模型变得足够强，另一件更深远的事才得以发生：工程师的角色，正在发生根本性转变。Claude Code 负责人 Boris Cherny 在两场访谈中说了一句让我印象深刻的话：编程问题在很大程度上已经被解决了。他自从 Opus 4.5 发布后就不再手写一行代码。OpenAI 工程负责人 Sherwin Wu 分享的数据更直接：内部 95% 的工程师每天使用 Codex，能同时调度 10 到 20 个 Agent 跑小时级任务的人，正在把其他工程师远远甩开。Anthropic 发布的趋势报告则把这件事说得更明确：软件开发正在从人写代码，转向人编排 Agent 写代码。

编排，是我给这一期选的关键词。

不是因为它新鲜，其实这个概念在分布式系统里用了几十年。更是因为它精确描述了模型能力提升之后正在发生的变化：工程师的核心工作，从亲手写每一行代码，变成了定义任务、拆解问题、调度多个 AI Agent 协同完成工作，然后验收结果。

这两周我自己也在亲身经历这个转变。我一直在构思和搭建 BestBlogs 2.0 的核心特性，整个开发流程是这样的：写 Spec 文档定义需求，用它编排多个 AI Coding 工具和智能体，让它们分别完成需求讨论、方案设计、Demo 开发和交叉 Review。我的角色不是写代码的人，而是定义做什么、判断做得对不对的人。预计三月底上线，届时再和大家分享更多细节。

模型层：加量不加价的军备竞赛

神仙打架，开发者受益

先说模型，因为模型是编排的基础设施。

Claude Sonnet 4.6 这次升级幅度不小。百万 token 上下文窗口、全面升级的编码和 Agent 能力，实测 59% 的场景优于上代旗舰 Opus 4.5，但价格和 Sonnet 4.5 持平。这意味着之前只有顶配模型才能做的事情，现在中端模型就能做到。

Google 的 Gemini 3.1 Pro 更激进。ARC-AGI-2 推理测试得分从 31% 直接跳到 77%，还引入了三级思考模式，简单任务少花算力，复杂任务多花算力，开发者不用维护多个模型就能灵活调配。API 成本不到 Claude Opus 4.6 的一半。

国内这边，GLM-5 以智能体工程为核心设计目标，通过异步强化学习和稀疏注意力在开源模型中做到了最优。MiniMax M2.5 解决的是另一个问题：成本。它把连续运行 Agent 的成本压到了每小时不足 1 美元。当运行 Agent 的边际成本趋近于零，很多之前不划算的自动化场景就突然变得可行了。

在生成领域，Seedance 2.0 已经不是简单的视频生成工具了，开始理解导演思维，能自主处理分镜设计和情绪节奏。Nano Banana 2 则靠大幅降低定价让高质量图像生成变得人人可用，虽然实测表现没有官方宣传那么惊艳。

这些模型放在一起看，趋势很清晰：能力在快速提升，价格在快速下降，Agent 场景的可行性在快速扩大。这为编排提供了基础条件。

工具层：Claude Code 背后的哲学

Boris Cherny 的两场访谈是本期我觉得含金量最高的内容。

一个有意思的细节：Claude Code 最初只是 Anthropic 内部一个拿到两个赞的小项目。现在它贡献了 GitHub 上 4% 的代码提交量。Boris 说，贯穿始终的核心哲学是：不为今天的模型构建，而为六个月后的模型构建。这句话值得反复品味：大部分人在用当前模型的能力边界来设计工作流，但模型能力是在指数级提升的。如果你的工作流是为当前模型设计的，六个月后它就过时了。

他还有一个判断我很认同：编程问题被解决之后，下一个前沿是让 AI 从执行者变成主动提出想法的同事。现在的 Agent 还是被动的，你告诉它做什么，它去做。但未来的 Agent 应该能说：我注意到这个接口设计有问题，建议改成这样。

OpenAI 内部协作

OpenAI 那边的故事也呼应了这个趋势。他们的应用 CTO 描述了一个已经在发生的场景：工程师合上笔记本去开会，回来发现 Codex 已经把活干完了。瓶颈在持续转移：从代码生成到审查，从审查到部署，从部署到需求理解。每解决一层，下一层就暴露出来。

PingCAP CTO 黄东旭的对谈播客也值得一听。他提出了一切皆 Coding Agent 的判断，认为上下文工程是当前最核心的能力，并提出了 Box 隔离环境的构想，它能给每个 Agent 一个独立沙箱，让它们安全地并行工作。

实践层：Vibe Coding 的理想与现实

概念归概念，落地归落地。

阿里巴巴的内部实践给出了大规模落地 Vibe Coding 的真实画面。AI 生成代码的质量一致性是个问题，调试效率反而可能下降，安全漏洞风险增加，token 成本不低。他们的解法很务实：用模板化固化成功路径，把 Agent 本身抽象为可复用的工具，用国产模型替代闭源方案控制成本。这些经验对任何想在团队中推广 AI 编程的人都有参考价值。

Vibe Coding 带来的变化

另一个故事更有意思：一位没有编程背景的产品经理，用一个下午通过 Claude Code 搭建出了运行在自己服务器上的个人 AI Agent。这不是炫技，而是一个非技术人员完成了过去需要专业开发者花几天才能做的事。她的总结很到位：AI 抹平了技术门槛，但想清楚做什么、为什么做的产品思维无法被替代。

Datawhale 对 AI Skill 设计的拆解揭示了一个有趣的分水岭：给 AI 写指令和给人写文档是完全不同的事。写 Skill 的关键是用脚本锁死脆弱操作、用文字引导创造性任务，每一句话都要值得它占用的上下文 token。

基础设施层：记忆正在成为核心

记忆正在成为核心

一篇来自 InfoQ 的演讲让我重新思考了一个问题：大模型工程化的下一个核心是什么？

答案可能是记忆。

这篇演讲系统梳理了记忆分层建模、主动调度和脑图式信息组织三大机制。最打动我的洞察是：与其在检索时被动应对，不如把记忆管理前置到用户交互的空档期，让所需记忆在查询到来之前就准备好。这从根本上改变了 RAG 的思路，不再是用户问了再去找，而是提前把可能需要的信息准备好。

这和编排的主题是相通的。好的编排不只是调度任务，还包括管理 Agent 的上下文和记忆。一个没有记忆能力的 Agent 每次都在从零开始，这严重限制了它能处理的任务复杂度。

观点层：AI 会终结软件工程吗？

AI 会终结软件工程吗？

这个问题在本期被反复讨论。

UML 之父 Grady Booch 给出了他的答案：软件工程已经经历过多次存在主义危机，结构化编程来的时候、面向对象来的时候、敏捷来的时候，每一次都有人说软件工程要死了，每一次都以新的黄金时代收场。他驳斥了 Dario 关于 AI 将全面自动化软件工程的判断，认为 AI 处理的不过是另一次抽象层级的跃迁。真正的软件工程是在多种力量之间做权衡取舍，系统思维、复杂性管理和人类判断力才是稀缺能力。

Naval 从另一个角度回答了这个问题。他认为主体意识是人类对抗 AI 替代的真正护城河，因为 AI 没有欲望，没有生存压力，无法在真正未知的领域自主决策。氛围编程让品味和判断力直接成为生产力，但只有理解底层逻辑的人才能在 AI 出错时补漏洞。消解 AI 焦虑的唯一方法，始终是打开引擎盖去理解它，然后付诸行动。

Anthropic 的趋势报告给了一个更中性的结论：AI 放大的是工程师已有的判断力，而非凭空替代它。系统设计、任务拆解、质量验收这些老功夫，在 Agent 时代反而更加值钱。

Jeff Dean 则把视角拉到更长的时间尺度。他从 2001 年将 Google 索引加载进内存的决策讲起，一路讲到 TPU 协同设计和稀疏模型，然后给出两个对未来的判断：能关注用户全部个人数据的个性化模型，以及专用硬件驱动的超低延迟将彻底改变人机协作方式。

晚点聊的年末 AI 回顾则把所有这些放进了更大的叙事中：从 DeepSeek R1 到 Agent 元年，从人才争夺到具身智能，最后回到一个每个人都在问的问题：在技术加速的时代，人如何在技能贬值与意义重构之间找到自己的位置？

编排时代的一点感想

回到编排这个关键词。

我越来越觉得，编排不只是一种工作方式，它是一种思维方式的转变。过去我们习惯于亲手完成每一个步骤，对产出有完全的控制感。编排意味着放弃这种控制感，转而信任 AI Agent 的执行能力，把精力集中在定义目标、拆解任务、验收结果上。

这对很多工程师来说是反直觉的。我们的职业认同建立在写代码这件事上，突然被告知最有价值的事情不是写代码而是不写代码，这需要时间消化。但趋势已经很明确了。

这也是我在搭建 BestBlogs 2.0 时最大的体会：当你学会用 Spec 文档清晰地定义需求，用合适的 Agent 组合去执行，用严格的标准去验收，产出的质量和效率都远超自己手写代码。前提是你得知道什么是好的、什么是对的，判断力，而非执行力，成了稀缺资源。

以上就是本期的核心内容。完整的 20 篇精选文章可以在 BestBlogs.dev 上查看。

保持好奇，我们下周见。