春节快乐!过去两周因为假期休刊,攒了不少好内容。这一期信息量比较大,慢慢消化。

模型越来越强,角色也在跟着变

这两周 AI 领域发生了很多事。Claude Sonnet 4.6、Gemini 3.1 Pro、GLM-5、MiniMax M2.5、Seedance 2.0、Nano Banana 2 等新模型密集发布,各家都在加量不加价。这一轮模型层的进步是实质性的:推理能力、编码能力、上下文长度全面跃升,价格却在持续下降。模型能力的突破,始终是整个 AI 领域向前推进的核心动力。
正因为模型变得足够强,另一件更深远的事才得以发生:工程师的角色,正在发生根本性转变。Claude Code 负责人 Boris Cherny 在两场访谈中说了一句让我印象深刻的话:编程问题在很大程度上已经被解决了。他自从 Opus 4.5 发布后就不再手写一行代码。OpenAI 工程负责人 Sherwin Wu 分享的数据更直接:内部 95% 的工程师每天使用 Codex,能同时调度 10 到 20 个 Agent 跑小时级任务的人,正在把其他工程师远远甩开。Anthropic 发布的趋势报告则把这件事说得更明确:软件开发正在从人写代码,转向人编排 Agent 写代码。
编排,是我给这一期选的关键词。
不是因为它新鲜,其实这个概念在分布式系统里用了几十年。更是因为它精确描述了模型能力提升之后正在发生的变化:工程师的核心工作,从亲手写每一行代码,变成了定义任务、拆解问题、调度多个 AI Agent 协同完成工作,然后验收结果。
这两周我自己也在亲身经历这个转变。我一直在构思和搭建 BestBlogs 2.0 的核心特性,整个开发流程是这样的:写 Spec 文档定义需求,用它编排多个 AI Coding 工具和智能体,让它们分别完成需求讨论、方案设计、Demo 开发和交叉 Review。我的角色不是写代码的人,而是定义做什么、判断做得对不对的人。预计三月底上线,届时再和大家分享更多细节。
模型层:加量不加价的军备竞赛

先说模型,因为模型是编排的基础设施。
Claude Sonnet 4.6 这次升级幅度不小。百万 token 上下文窗口、全面升级的编码和 Agent 能力,实测 59% 的场景优于上代旗舰 Opus 4.5,但价格和 Sonnet 4.5 持平。这意味着之前只有顶配模型才能做的事情,现在中端模型就能做到。
Google 的 Gemini 3.1 Pro 更激进。ARC-AGI-2 推理测试得分从 31% 直接跳到 77%,还引入了三级思考模式,简单任务少花算力,复杂任务多花算力,开发者不用维护多个模型就能灵活调配。API 成本不到 Claude Opus 4.6 的一半。
国内这边,GLM-5 以智能体工程为核心设计目标,通过异步强化学习和稀疏注意力在开源模型中做到了最优。MiniMax M2.5 解决的是另一个问题:成本。它把连续运行 Agent 的成本压到了每小时不足 1 美元。当运行 Agent 的边际成本趋近于零,很多之前不划算的自动化场景就突然变得可行了。
在生成领域,Seedance 2.0 已经不是简单的视频生成工具了,开始理解导演思维,能自主处理分镜设计和情绪节奏。Nano Banana 2 则靠大幅降低定价让高质量图像生成变得人人可用,虽然实测表现没有官方宣传那么惊艳。
这些模型放在一起看,趋势很清晰:能力在快速提升,价格在快速下降,Agent 场景的可行性在快速扩大。这为编排提供了基础条件。
工具层:Claude Code 背后的哲学
Boris Cherny 的两场访谈是本期我觉得含金量最高的内容。
一个有意思的细节:Claude Code 最初只是 Anthropic 内部一个拿到两个赞的小项目。现在它贡献了 GitHub 上 4% 的代码提交量。Boris 说,贯穿始终的核心哲学是:不为今天的模型构建,而为六个月后的模型构建。这句话值得反复品味:大部分人在用当前模型的能力边界来设计工作流,但模型能力是在指数级提升的。如果你的工作流是为当前模型设计的,六个月后它就过时了。
他还有一个判断我很认同:编程问题被解决之后,下一个前沿是让 AI 从执行者变成主动提出想法的同事。现在的 Agent 还是被动的,你告诉它做什么,它去做。但未来的 Agent 应该能说:我注意到这个接口设计有问题,建议改成这样。

OpenAI 那边的故事也呼应了这个趋势。他们的应用 CTO 描述了一个已经在发生的场景:工程师合上笔记本去开会,回来发现 Codex 已经把活干完了。瓶颈在持续转移:从代码生成到审查,从审查到部署,从部署到需求理解。每解决一层,下一层就暴露出来。
PingCAP CTO 黄东旭的对谈播客也值得一听。他提出了一切皆 Coding Agent 的判断,认为上下文工程是当前最核心的能力,并提出了 Box 隔离环境的构想,它能给每个 Agent 一个独立沙箱,让它们安全地并行工作。
实践层:Vibe Coding 的理想与现实
概念归概念,落地归落地。
阿里巴巴的内部实践给出了大规模落地 Vibe Coding 的真实画面。AI 生成代码的质量一致性是个问题,调试效率反而可能下降,安全漏洞风险增加,token 成本不低。他们的解法很务实:用模板化固化成功路径,把 Agent 本身抽象为可复用的工具,用国产模型替代闭源方案控制成本。这些经验对任何想在团队中推广 AI 编程的人都有参考价值。

另一个故事更有意思:一位没有编程背景的产品经理,用一个下午通过 Claude Code 搭建出了运行在自己服务器上的个人 AI Agent。这不是炫技,而是一个非技术人员完成了过去需要专业开发者花几天才能做的事。她的总结很到位:AI 抹平了技术门槛,但想清楚做什么、为什么做的产品思维无法被替代。
Datawhale 对 AI Skill 设计的拆解揭示了一个有趣的分水岭:给 AI 写指令和给人写文档是完全不同的事。写 Skill 的关键是用脚本锁死脆弱操作、用文字引导创造性任务,每一句话都要值得它占用的上下文 token。
基础设施层:记忆正在成为核心

一篇来自 InfoQ 的演讲让我重新思考了一个问题:大模型工程化的下一个核心是什么?
答案可能是记忆。
这篇演讲系统梳理了记忆分层建模、主动调度和脑图式信息组织三大机制。最打动我的洞察是:与其在检索时被动应对,不如把记忆管理前置到用户交互的空档期,让所需记忆在查询到来之前就准备好。这从根本上改变了 RAG 的思路,不再是用户问了再去找,而是提前把可能需要的信息准备好。
这和编排的主题是相通的。好的编排不只是调度任务,还包括管理 Agent 的上下文和记忆。一个没有记忆能力的 Agent 每次都在从零开始,这严重限制了它能处理的任务复杂度。
观点层:AI 会终结软件工程吗?

这个问题在本期被反复讨论。
UML 之父 Grady Booch 给出了他的答案:软件工程已经经历过多次存在主义危机,结构化编程来的时候、面向对象来的时候、敏捷来的时候,每一次都有人说软件工程要死了,每一次都以新的黄金时代收场。他驳斥了 Dario 关于 AI 将全面自动化软件工程的判断,认为 AI 处理的不过是另一次抽象层级的跃迁。真正的软件工程是在多种力量之间做权衡取舍,系统思维、复杂性管理和人类判断力才是稀缺能力。
Naval 从另一个角度回答了这个问题。他认为主体意识是人类对抗 AI 替代的真正护城河,因为 AI 没有欲望,没有生存压力,无法在真正未知的领域自主决策。氛围编程让品味和判断力直接成为生产力,但只有理解底层逻辑的人才能在 AI 出错时补漏洞。消解 AI 焦虑的唯一方法,始终是打开引擎盖去理解它,然后付诸行动。
Anthropic 的趋势报告给了一个更中性的结论:AI 放大的是工程师已有的判断力,而非凭空替代它。系统设计、任务拆解、质量验收这些老功夫,在 Agent 时代反而更加值钱。
Jeff Dean 则把视角拉到更长的时间尺度。他从 2001 年将 Google 索引加载进内存的决策讲起,一路讲到 TPU 协同设计和稀疏模型,然后给出两个对未来的判断:能关注用户全部个人数据的个性化模型,以及专用硬件驱动的超低延迟将彻底改变人机协作方式。
晚点聊的年末 AI 回顾则把所有这些放进了更大的叙事中:从 DeepSeek R1 到 Agent 元年,从人才争夺到具身智能,最后回到一个每个人都在问的问题:在技术加速的时代,人如何在技能贬值与意义重构之间找到自己的位置?
编排时代的一点感想
回到编排这个关键词。
我越来越觉得,编排不只是一种工作方式,它是一种思维方式的转变。过去我们习惯于亲手完成每一个步骤,对产出有完全的控制感。编排意味着放弃这种控制感,转而信任 AI Agent 的执行能力,把精力集中在定义目标、拆解任务、验收结果上。
这对很多工程师来说是反直觉的。我们的职业认同建立在写代码这件事上,突然被告知最有价值的事情不是写代码而是不写代码,这需要时间消化。但趋势已经很明确了。
这也是我在搭建 BestBlogs 2.0 时最大的体会:当你学会用 Spec 文档清晰地定义需求,用合适的 Agent 组合去执行,用严格的标准去验收,产出的质量和效率都远超自己手写代码。前提是你得知道什么是好的、什么是对的,判断力,而非执行力,成了稀缺资源。
以上就是本期的核心内容。完整的 20 篇精选文章可以在 BestBlogs.dev 上查看。
保持好奇,我们下周见。
