Gino Notes

BestBlogs.dev 周刊第 92 期:模型周

33 分钟阅读阅读记录

本期主题:最近两周模型层集中爆发,GPT-5.5、DeepSeek-V4、Kimi K2.6、Images 2.0 同周登场,加上国内三家大厂同时给出的智能体工程化中文版第一性原理。

🎧 同步播客:EP37 · BestBlogs 周刊第 92 期 · 模型周(在小宇宙搜索 BestBlogs 周刊)

📚 完整周刊:https://www.bestblogs.dev/newsletter/issue92

BestBlogs 第 92 期 · 模型周


导语:模型层的集中爆发周

最近这两周,模型层在很短时间内接连开了几个大门。

OpenAI 发布 GPT-5.5,把模型直接定位成为自主完成多步任务设计的智能体引擎。DeepSeek 同步开源 V4 预览版,把 1M 上下文做成所有官方服务的标配。月之暗面开源 Kimi K2.6,单次运行能不间断编码 13 小时。OpenAI 还在同一周把 Images 2.0 推到了能批量生产杂志和漫画的级别。

四款一线模型挤在一起刷分,讨论的重点已经从谁更聪明,切换到了谁能让智能体在长程任务里持续可靠地干完活。

回头看前两期周刊,第 90 期我们聊的是脑和手的解耦,第 91 期是基建周,那一周 Cloudflare 把智能体云的整个栈一次补齐。这两期讲的更多是基础设施层在为智能体重新设计;本周的故事更直接,是模型能力本身在补齐基础设施之上最关键的一块。当模型变得能可靠完成多步任务,前几期看到的那些基建动作才真正有了被放大的可能性。

这一周的 20 篇精选,从模型发布到智能体工程化,再到大厂的真实采纳,几乎每一篇都在用具体动作回答同一个问题:2026 年的模型公司、基建公司、应用公司应该长成什么样子


个人更新:BestBlogs 后续开发

这周主要在推进 BestBlogs 的后续开发和优化。

前段时间通过微信和邮件陆续邀请了 160 多位朋友来做内测,本轮邀请已经告一段落,接下来不再新增,重心会完全放在版本迭代和体验改进上。

开发过程几乎全程是 Claude Opus 4.7 写代码、Codex 做代码审查、Claude 更新文档。这套组合用下来,把这周的三件事一起跑完了:

  1. 开放能力发布:包括 OpenAPI v2、命令行工具,还有 BestBlogs 的 skills 包,让外部开发者可以直接调用站内数据和功能。
  2. 内置翻译功能上线:文章和推文详情页可以直接读译文,省掉了跳转到外部翻译网站的步骤。
  3. 每日回顾功能上线:补全用户的阅读闭环。

BestBlogs 内置翻译功能

完整更新日志:https://www.bestblogs.dev/changelog

下一阶段的重点:优化个性化推荐、优化早报图文体验、优化移动端使用体验、新增话题功能、推进 App 开发

一边在自己的产品里把开放能力做出来,一边在读阮一峰那篇关于第二次 API 开放浪潮的文章,体感会比单看新闻深一层。


一、模型层旗舰:GPT-5.5、DeepSeek-V4、Kimi K2.6 三连发

GPT-5.5:自主完成多步任务的拐点

GPT-5.5 发布

这次 OpenAI 没有把它包装成一次聊天体验的升级,而是直接说它是为把多步任务自主完成而设计的。

GPT-5.5 表现

最关键的指标:延迟和 GPT-5.4 持平,但完成同样的 Codex 任务用的 token 更少。过去半年大家担心更聪明的模型一定更慢更贵,GPT-5.5 给了一个相反的答案。更聪明的同时还更高效。

OpenAI 也明确把智能体编程、计算机操控、早期科学研究列为未来的主战场。配套上线了网络安全信任访问项目,先把高风险能力关起来,在大约 200 名早期合作伙伴里做灰度。模型暂时不通过 API 全量开放。这种把能力发布和安全防护一起设计的做法,和上一期 Anthropic 推 Mythos Preview 的逻辑很像。模型公司开始接受一个事实,能力越强,红线就越要在发布前先画好

→ 阅读原文:GPT-5.5 发布


DeepSeek-V4:1M 上下文成为标配,DSA 稀疏注意力

DeepSeek-V4 预览版

这版的最大动作是:把 1M(一百万)token 的超长上下文做成所有官方服务的默认配置,再也不需要用户特别开启。

技术上他们用了一种叫 DSA(DeepSeek Sparse Attention)的稀疏注意力机制,再叠加 token 维度的压缩,把长文本场景下的算力和显存开销大幅压下来。这就解决了长上下文一直以来最大的痛点,用得起但跑不动。

算力与显存随上下文长度的变化

V4 分了两个版本:

  • V4-Pro:在 Agentic Coding 上据 DeepSeek 自己内部反馈优于 Sonnet 4.5,体感接近 Claude Opus 4.6 的非思考模式,离 Opus 4.6 思考模式还有一定差距。世界知识仅次于 Gemini 3.1 Pro,数学和竞赛代码超越所有公开评测的开源模型。
  • V4-Flash:为高并发与成本敏感场景准备的快速版本,简单任务和 Pro 旗鼓相当,高难度任务有差距。

V4 针对几个主流智能体框架都做了适配优化,包括 Claude Code 和 OpenClaw 这两个用户量最大的,还有 OpenCode 和 CodeBuddy 这种偏开发者的。1M 上下文加上对主流框架的开箱适配,让 V4 立刻可以接入很多现有的工作流

一个细节:DeepSeek 的旧 API 接口(V3 时代的两个模型名)会在三个月后停用,强制大家迁移到新的 V4 命名空间。这种节奏说明 DeepSeek 把这次发布当成一个主版本切换,迭代之外还有更深的含义。

→ 阅读原文:DeepSeek-V4 预览版


Kimi K2.6:13 小时不间断编码,300 个子智能体协作

Kimi K2.6 发布并开源

月之暗面这次直接说 K2.6 是迄今最强的代码模型,并且是开源发布。最有冲击力的是几个真实场景的数字:

  • 连续编码 13 小时不间断,调用工具超过 4,000 次,迭代 14 轮
  • 把一个 Mac 本地推理的吞吐量从 15 tokens/s 提到 193 tokens/s,最终比 LM Studio 还要快两成
  • 对一个有 8 年历史的开源金融撮合引擎做深度重构,连续作业 13 小时,迭代 12 套优化策略,调整核心线程拓扑结构,把中位吞吐量提升将近一倍,峰值吞吐量提升一倍以上

Kimi Code Bench 成绩

这些都是真实跑出来的数字,不是基准测试的成绩。在博士级难度的人类最后的考试上,K2.6 也持平或优于一众顶级闭源模型,包括 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro。在 SWE-Bench Pro 上同样行业领先。

除了单兵作战,K2.6 把智能体集群架构升级到能调度 300 个子智能体协作 4,000 个步骤。配合 OpenClaw 和 Hermes Agent 的适配,他们的强化学习基础设施团队用 K2.6 实现了连续 5 天的自主运行,模型负责监控、故障响应和系统运维。

更前沿的尝试是 Claw 群组,一个小范围内测的功能,把人和异构智能体放进同一个聊天群协作。K2.6 在中间做协调者,根据每个智能体的技能画像动态分配任务。如果某个智能体卡住,协调者会自动重新分配。这是把传统的人和工具的关系,往团队和成员的关系上推

→ 阅读原文:Kimi K2.6 发布并开源


三大旗舰的共同信号

旗舰三连发

把这三个旗舰放在一起看,会发现一个共同信号。

过去大家比的还是单步推理的智商,现在比的是能不能把一个长任务干完。

GPT-5.5 和 Kimi K2.6 都在用同一类基准在卷,DeepSeek V4 也是在智能体框架上做适配。这其实印证了上一期广密在张小珺访谈里那句判断,编程是通用人工智能的第二幕。更深的含义是:模型公司从这周开始已经默认智能体是一个标准能力,过去那种把它当加分项的时代已经过去。任何一个新模型如果不能跑长程任务,连入场资格都没有。

还有一个信号值得提一下:这次三家发布有一个隐含的共同点,定价没有显著上升。GPT-5.5 的 token 价格和 5.4 持平,DeepSeek-V4 同价位甚至更低,Kimi K2.6 是开源免费的。在能力大幅提升的同时维持价格不变,意味着模型公司在用规模和效率消化成本,而非把成本传导给用户。这对开发者是一个好消息,用更强模型不需要重新规划预算。过去半年很多智能体应用因为成本被卡住的瓶颈,这周开始被打开了。


二、OpenAI 同周双发 + Cloudflare 简要回顾

Images 2.0:图像生成进入生产力级别

ChatGPT Images 2.0

Images 2.0 是 OpenAI 把图像生成正式推到生产力级别的一次尝试。它具备了思考和联网搜索的能力,能搜实时数据再生成包含当日价格的菜单这种例子。

攻克的几个老难题:

  • 精准排版
  • 复杂的解释性图表
  • 带完整推导过程的数学证明插图
  • 多语言输出
  • 成套连贯生成:一次性生成一整本结构化排版加写实摄影的杂志,或者每个房间都有独立设计的家装方案,或者一部固定角色和演进剧情的漫画

加上 2K 高清和结构化设计,Images 2.0 已经从画着玩的工具,变成一个为出版、设计、内容生产线准备的工具。OpenAI 自己把它比作图像生成领域的文艺复兴。在它之前的 DALL-E 像洞穴壁画,Images 1 像古代艺术。

→ 阅读原文:这就是 ChatGPT 图像 2.0


Workspace Agents:可重复工作流的标准化

Workspace Agents

同周的 Workspace Agents 走的是另一条路:把 ChatGPT 从一次性问答推向可重复工作流。一个智能体由三部分组成:

  • 触发器(Trigger):定时(如每周一上午 10 点)或事件触发(如 Slack 表单提交)
  • 专业技能(Skills):领域知识封装
  • 可用的第三方工具(Tools):CRM、Slack、文档系统等

举个例子:每周一上午 10 点自动拉取营销 KPI,识别趋势,起草总结,提议下一步行动,分配责任人。和过去用 API 做的确定性工作流相比,它多了一层概率性的判断

OpenAI 在文档里特别强调,这种东西不适合一次性的开放式思考,但很适合那些每周或每天都要做的、有明确输出格式的事情。文档里还提供了几种典型模式:营销活动总结、产品反馈分流、销售管道总结,每个模式都给出了完整的智能体拆解,包括目标、触发器、流程、工具,方便企业直接套用。它服务的是企业流程里那些固定的协作节点,和单点任务的替代工具定位完全不同。

→ 阅读原文:工作区智能体


Cloudflare Cloud 2.0 简要回顾

Cloudflare Agents Week

上一期基建周我们花了很长篇幅聊 Cloudflare 的 Agents Week,本周他们出了一篇正式的总结博客,把计算、存储、安全、推理路由这四层一周内发布的东西全部汇总,并且明确说这是智能体云的官方定调。这篇博客更像是一个回顾索引,没有新信息,对上一期漏听的朋友是一个补课的好入口。

→ 阅读原文:构建智能体云:我们在 2026 年智能体周期间发布的一切


这一周模型层和基建层完成了一次同步迭代

模型层和基建层完同步迭代

模型公司发的不只是更聪明的模型,发的是配套的工作流形态。基建公司发的不只是新原语,发的是面向智能体重新设计的整个云

这种节奏在过去是少见的。基建层的迭代往往要落后模型层半年到一年,现在两边几乎是平行推进。

对个人开发者来说,这意味着接下来选型的复杂度上升了。半年前可能只需要选一个模型,现在需要同时选模型、智能体框架、基建。但好处是每一层都有更成熟的选择,不再像一年前那样什么都要自己撑起来。这周的几篇文章其实给出了一些参考组合:

  • 模型:GPT-5.5 / Kimi K2.6 / DeepSeek-V4
  • 框架:OpenClaw / Hermes Agent
  • 基建:Cloudflare 这套

这就是一个完整的智能体工作流栈。


三、AI 编程的真实图景:三个人的视角

Garry Tan:薄 Harness、厚 Skill 的开源实践

Garry Tan 的 Claude Code 设置内幕

YC 总裁 Garry Tan 三周前开源了一个项目叫 GStack,到这周它在 GitHub 上的 Star 数已经超过了老牌 Web 框架 Ruby on Rails 的总数。这个对比本身就挺有意思。

GStack 的核心理念用八个字总结:薄 Harness 厚 Skill。它做的事情是把 YC 自己最核心的工作流封装成可复用的技能。

最典型的几个 Skill:

  • Office Hours:把 16 位 YC 合伙人多年总结出来的 6 个核心问题做成模板,在你写代码之前先逼你回答清楚商业模式和用户痛点。Garry 在视频里演示了一个税务 App 的例子,用户输入想法,模型先问最强有力的证据是什么,再追问 TurboTax 等已有工具为什么不能解决,最后引出一个楔子战略的判断。整个对话像在和一个 YC 合伙人面对面交流。
  • Design Shotgun:对抗性设计审查技能,让 AI 用不同视角挑战你的产品方案,找出弱点。
  • Playwright 测试:浏览器自动化封装成 Skill,开发完成后自动跑回归。

Garry 自己讲了一个细节:他今年写的代码已经超过了 2013 年全年。那是他最后一次作为全职工程师高强度工作的年份。当年他和联合创始人带 10 人团队、花 1,000 万美元、用 2 年时间才把 Posterous 做出来,现在他基本上一个人就能重做出来

这条信息与其说是炫耀,更像是在说明工具正在让一个人重新具备小团队的产能。

视频里他还演示了用 Conductor 同时管理多个并行会话。一个会话在测试网页,另一个在写后端代码,第三个在调试,他只需要在中间审阅和决策。

→ 阅读原文:Garry Tan 的 Claude Code 设置内幕


Cat Wu:把发布周期从 6 个月压到 1 天

Anthropic 产品团队如何比任何人都快

Anthropic 的 Cat Wu 是 Claude Code 的产品负责人。她在 Lenny 的播客里揭了一些 Anthropic 内部的运作细节,最让我有共鸣的是他们把发布周期从 6 个月压到了 1 天。秘诀其实非常朴素:

  1. 所有功能先以研究预览版形式上线,明确标注早期性质,把长期支持的承诺压力降下来。团队能在 1-2 周内就上线新想法并获取反馈。
  2. 长青发布室频道:工程师觉得功能成熟了就在里面发个帖,文档、市场、开发者关系等团队当天就跟进,第二天发营销公告。
  3. 大量招产品品味强的工程师:让工程师能直接根据推特上的用户反馈在一周内自主迭代。

Cat Wu 还分享了她和 Boris 的分工模式:Boris 负责设定 3-6 个月后的产品愿景,她负责规划从现状通往那个愿景的路径,并且在功能开发完成后清除所有发布阻碍。两个人大约 80% 的时候想法完全一致。

她还谈了 Anthropic 文化的另一个特点:团队成员都有一种拥抱混沌的特质,因为风险和变数太多,过度焦虑很快就会崩溃。Anthropic 倾向于聘用经历过行业起起伏伏的资深人士。

Cat Wu 给从业者的核心建议很犀利:

把自动化做到 100%。差一点就会成为你的瓶颈。

她举例说,Anthropic 内部有些工程师写完一个 PR 之后,会用 AI 帮他做接下来所有事情,从写测试到写文档到合并部署。这种从首次代码提交到最终上线全自动化的工作流,才是真正放大产能的路径。

这条建议听起来朴素,但联系到上面 Garry Tan 那个数据,其实是一致的:工具效率的边际收益要在最后一公里才真正显现

→ 阅读原文:Anthropic 产品团队如何比任何人都快 | Cat Wu


Pragmatic Engineer:大厂里那个让人哭笑不得的 token 刷量

AI 如何改变软件工程:与 Gergely Orosz 的对话

Pragmatic Engineer 的 Gergely Orosz 在 AI Engineer 大会上揭露了一个让我哭笑不得的现象,他把它叫做 Token Maxing(token 刷量)。

简单说就是大厂把员工的 AI token 消耗量当作绩效指标:

公司操作
Salesforce每个员工月均 $175 的 token 最低消费,月初不达标就要疯狂用
Meta / Microsoft内部排行榜,工程师为了排名不垫底开始用智能体生成一堆没用的总结
CoinbaseCEO Brian Armstrong 发全员邮件要求所有人必须用 AI 工具,一周后真的开除了一名没用的工程师

Gergely 的判断是,这种现象本质上是管理层在对工具效果还没充分验证的情况下,用强制指标推动落地。这背后有一种古德哈特定律的味道,任何被作为目标的指标都会被滥用。

他还讲了一个对比,几个月前 Token Maxing 最初还只是个玩笑,大家是为了好玩疯狂尝试用它来构建很酷的东西,但现在演变成了一种奇怪的职场文化

访谈里 Gergely 还分享了一个更有价值的观察:大厂在内部 AI 基础设施上的投入远超外界想象。Uber 自己建了一个内部的 AI 网关,统一管理所有内部模型调用;Shopify 把内部所有 AI 工具集中到一个平台;Meta 和微软都在做自己的 MCP 网关,专门处理智能体和企业系统的对接。这些公司不依赖现成工具,而是花大力气自研

→ 阅读原文:AI 如何改变软件工程:与 Gergely Orosz 的对话


三个视角的张力

AI 编程的真实面

把这三个视角放在一起看,AI 编程在 2026 年呈现出一种很微妙的张力:

  • 一边是 Garry Tan 这种能用工具放大十倍生产力的真实案例
  • 另一边是大厂内部因为指标焦虑产生的扭曲现象

Cat Wu 的一句话其实是一个分水岭:把自动化做到 100%。要么让工具真正改变你做事的方式,要么不要假装它在改变。


四、智能体工程化:国内三家大厂同周给出第一性原理

第四个主题,是这周国内三家大厂同时发的关于智能体工程化的中文版深度文章,加上 Anthropic 和 Addy Osmani 对智能体技术栈的押注,最后再连上 MiniMax 和 Hermes 的中美对谈。这五六篇放在一起,构成了本周智能体工程化的一个完整切片

腾讯云:从第一性原理思考 Agentic Engineering

腾讯云开发者那篇的核心论点:把 vibe coding(凭直觉接受 AI 输出)和 Agentic Engineering 做了清晰的切分。前者将需求直接抛给 AI,不审查 diff、不理解生成的代码,凭直觉接受输出,以最快的速度得到能跑的结果。而 Agentic Engineering 代表了一种截然不同的范式,AI 不仅是代码的执行者,也是问题分析、方案设计等环节的思考伙伴,但最终的判断和决策权始终在工程师手中。

人机协作的三条铁律

文章有一个观点我特别认同:工程的本质是约束优化,是在给定资源、时间、质量的约束下找最优解。AI 不会改变这个约束本身,它改变的是约束内的搜索效率

文章梳理了软件工程长期以来的几大痛点:需求阶段的意图表达失真、设计阶段的知识难以沉淀、编码阶段的上下文获取成本高、审查阶段的瓶颈在人。共同根源归纳为四点:

  1. 信息损耗
  2. 知识孤岛
  3. 认知成本
  4. 组织摩擦

Agentic Engineering 的方法论是把这四个问题分别用上下文工程、规约先行、技能模块化、自我精炼这四个手段来解决。这个映射很清晰,对于想在团队内部推动 AI 工程化的人来说,可以直接套用。

作者还把这套方法论开源成了一个基于 Skill 的完整框架,包含 SDLC 工作流、最佳实践、自我精炼机制,可以直接 fork 来用。

→ 阅读原文:从第一性原理思考 Agentic Engineering


阿里 Aegis:Harness 是为非确定性引擎设计的物理控制面

阿里云开发者那篇是 Aegis 项目的复盘。作者给出了一个最锋利的定义:

传统软件工程管的是确定性,Harness Engineering 管的是非确定性。

一个 add(a, b) 函数,只要代码没 bug,结果永远确定。但大模型是概率引擎,同样的输入,它可能直接返回结果,可能调一个不相干的工具,也可能因为前文某句话幻觉暴走。所以 Harness 不是泛泛的好习惯,它是一个为非确定性引擎设计的物理控制面

文章用两个坐标轴画了智能体架构的四象限矩阵:

  • X 轴:执行流路由,从静态预设到动态自主
  • Y 轴:状态,从隐式内部到显式外部

从玩具到生产力:用真实项目讲透 AI Agent 的 Harness Engineering

Harness Engineering 落在第一象限:模型负责意图,外部 Harness 负责状态隔离和沙盒校验。开发成本相对高,但能用合理成本换一个更稳的系统下限。

文章还戳破了几个常见的伪 Harness 现象:

  • 在提示词里写 5,000 字几十条 DO NOT 这种软约束
  • 把所有逻辑塞进单次对话上下文,模型之外没有任何物理约束

作者举了 Aegis 项目的真实例子:一开始他们没急着写发请求的智能体,先去读架构文档、收敛目标、迁移参考实现。推进过程中遇到了上下文断裂、工具耦合、接口报错、本地测试退出这些问题。复盘下来发现,决定能不能跨过这些坎的关键其实在 Harness 是否搭得扎实,跟换一个更聪明的模型关系不大。

→ 阅读原文:从玩具到生产力:用真实项目讲透 AI Agent 的 Harness Engineering


腾讯审核 L3:80% 效能提升的全自动化路线图

从提需求到部署发布,全 AI 全自动化后,研发效能全面跃升

腾讯审核团队的实战总结把全自动化研发交付分成了三个阶段:

阶段状态说明
L1纯人工传统模式
L2人机协同2025 年所处阶段
L3全自动2026 年目标,80% 研发效能提升

他们梳理了四大核心挑战:

  1. 交付流程的标准化
  2. 需求的标准化
  3. 知识库的标准化
  4. 技能(Skills)的标准化

最让我印象深的是他们提的 PRD-Agent,让产品经理在标准模板里写需求,自动按规则评分,不达标直接打回。这本质上是把工程纪律前置到需求阶段,避免下游因为需求模糊而反复返工。

文章里还分享了一个很有意思的细节:他们用大模型自动生成代码评审、自动生成测试用例、自动生成部署脚本,把整个交付链路串起来。当某一环节出问题,流程自动回滚。这种把治理和交付双轮驱动的设计思路,把传统的 DevOps 平台能力扩展成了一个 AgentOps 平台

→ 阅读原文:从提需求到部署发布,全 AI 全自动化后,研发效能全面跃升


三篇文章的共同结论

程序员的核心价值正在从亲手写代码迁移到定义目标、卡住边界、控制节奏、做最终验收。

它和上一期那篇 Anthropic 的 Managed Agents 文章里讲的脑和手解耦其实是同一个判断的不同侧面。


Anthropic:MCP 是 M×N 集成的事实标准

使用 MCP 构建能够接入生产系统的智能体

Anthropic 的 MCP 实战指南给出了智能体接入外部系统的三条路径对比:

路径适用场景局限
直接 API 调用一对一集成规模上去后变成 M×N 集成噩梦
命令行工具(CLI)本地环境无法触达云端服务
MCP(模型上下文协议)多对多通用层需要前期投入,回报是可移植性

MCP 的 SDK 月下载量已经突破 3 亿次,是解决 M×N 集成问题的事实标准。一个远端服务可以同时被多个兼容客户端复用,包括 Claude,再到 ChatGPT 和 Cursor 这些工具。

Anthropic 给出的最佳实践:按意图组织工具,不要按 API 端点组织。复杂的接口考虑用代码编排模式,让模型写一段调用代码,而非直接调一个万能工具。

→ 阅读原文:使用 MCP 构建能够接入生产系统的智能体 | Claude


Addy Osmani:Agent Stack 四大架构押注

智能体技术栈的押注

Addy Osmani 那篇 Agent Stack 押注从架构层给出了四个判断:

  1. 智能体需要独立身份,不是借一个服务账户跑
  2. 需要通用上下文,不能每次都重新构建
  3. 需要持久化运行,不能每次都从零开始
  4. 需要标准化平台,不能每个团队都重复造轮子

文章里有一句话我觉得很值得记下来:

今天大多数所谓的生产级智能体打开机盖看,里面没有智能,只有自定义的胶水代码、脆弱的会话逻辑、共用的服务账户,还有一个靠希望维系的安全模型

→ 阅读原文:智能体技术栈的押注


MiniMax × Hermes:中美智能体团队的对谈

当我们在讨论 Harness 的时候,我们在讨论什么 | 深度对谈:MiniMax × Hermes Agent

Hermes Agent 是 OpenClaw 之后这个月最火的智能体框架,GitHub 上 22K+ Star。MiniMax 的首席架构师阿岛和研发工程师择因,加上 Hermes 的业务负责人 Tommy Eastman 在直播里聊了将近 3 小时。

访谈里几个判断我觉得很有冲击力:

  1. 模型和智能体必须一起做。靠模型公司纯训练或者智能体公司纯框架都做不出最好的产品。Anthropic 和 MiniMax 都在用行动印证这一点。
  2. 通用智能体终将吃掉垂直智能体。这个判断和上一期我们提到的广密的视角一致。
  3. 审美和目标定义将成为人类最后的护城河。当所有可被技能化的工作都被打包,剩下的就是那些需要品味判断的部分。

阿岛在访谈里还讲了一个有意思的观察:国内用户对 OpenClaw 的接受度其实比海外更高。因为国外用户之前已经接触过 Claude Code、Codex 这些好用的智能体,国内用户是被 OpenClaw 一下子捅破窗户纸的。海外是渐进式的,国内是跳跃式的。这种用户认知节奏的差异,决定了中国市场对智能体产品的需求形态会和北美不一样。

→ 阅读原文:当我们在讨论 Harness 的时候,我们在讨论什么


五、Shopify 全栈实践(本周最值得深读的一篇)

Shopify 的 AI 相变 - 对话 Shopify CTO Mikhail Parakhin

这一段我想专门给 Shopify CTO Mikhail Parakhin 在 Latent Space 那场访谈。它是这周我个人最推荐的一篇深度内容。因为它讲的是一家市值 2,000 亿美元的 20 年老公司,在 AI 时代怎么把内部全栈重新打造一遍。

Mikhail 是从微软过来的,之前负责过几个大盘业务,包括 Windows 操作系统、Edge 浏览器、Bing 搜索还有广告业务。他对 AI 的判断有一种从大公司高管视角出发的稳健感。

90%+ AI 采纳的三大支柱

Shopify 现在的内部 AI 采用率已经超过 90%,这是一家上万人规模的公司。支撑这个采用率的是三个内部系统:

系统用途
Tangle机器学习实验和数据流水线的可重复性工具,对标 Airflow 但更面向研究。实验、模型、数据从一开始就为生产环境设计
Tangent自动科研工具,把模型优化的循环交给系统自己跑。工程师定义目标和约束,剩下的让自动化完成
SimGym利用 Shopify 几十年积累的电商数据做顾客行为仿真,可以在虚拟环境里反复测试新功能对用户行为的影响

AI 时代真正的护城河,往往是私有数据和能在数据上反复模拟的能力,模型本身反倒不是壁垒。Shopify 几十年的真实电商数据,是任何模型公司都无法复制的资产。

两个让人警醒的判断

判断一:AI 编码的瓶颈已经从生成转移到 review 和发布稳定性

模型现在写代码可能比平均的人类更干净,但产品里出现的 bug 反而可能增多,因为代码审查、CI、CD 这些环节没有跟上节奏。Shopify 自己内部建了一套 PR 审查的工作流,并且认为大部分现成的 review 工具都没有抓到要点。

Mikhail 直接说:他们花在审查上的钱已经超过花在生成上的钱,这才是 AI 编码真正的下半场。

判断二:token 预算这个方向是对的,但用 token 数量评估工程产出仍然是错的

最终交付的质量、稳定性、可维护性,这些都不是 token 能量化的。

这其实直接呼应了前面 Pragmatic Engineer 那篇关于 token 刷量的文章:一边是大厂用排行榜逼员工刷 token,另一边是 Shopify 在花更大力气投资审查和发布稳定性。同样是高 AI 采用率,路径完全不同。

Liquid AI 与 CLI 工具趋势

访谈里还提到一个很有意思的细节:Shopify 在用一个叫 Liquid AI 的非 Transformer 架构做超低延迟搜索。这是为了把搜索响应控制在 20ms 以内,传统 Transformer 架构做不到这个级别。Liquid AI 是麻省理工出来的一家公司,他们和 Shopify 签了多年合作协议,专门做小型基础模型的核心商务体验落地。

这种工程取舍说明,到了真实生产规模,公司愿意为了延迟去用一些非主流架构,而非迷信通用模型。

Mikhail 还分享了一个对工程师角色变化的观察:在 Shopify 内部,命令行风格的工具上升速度比传统 IDE 风格的工具更快。因为命令行更容易被脚本化和编排进自动化流水线。这和 Cat Wu 那条把自动化做到 100% 的建议是一致的,工具形态本身在向更易自动化的方向演化

Sydney 时代的经验带到 Shopify

Mikhail 还回顾了他在微软 Sydney 时代的经验,那是必应早期接入大模型的时候,遇到了非常多模型行为不可控的问题。他把那段经验带到 Shopify 之后,最大的体会是:AI 产品上线之前的安全测试和线上监控同样重要,不能只测一个静态的 benchmark,要做动态的对抗性测试。

Mikhail 这场访谈和前面那个 token 刷量形成了一个鲜明对照。判断哪一种更对,可能要等到一两年后看公司的产品质量和事故率。但至少从访谈里能看出来,Mikhail 思考的重心放在怎么重塑工作方式本身,token 这种表层指标对他来说反倒不是第一位的。

→ 阅读原文:Shopify 的 AI 相变 - 对话 Shopify CTO Mikhail Parakhin


六、模型公司战略:四场重磅访谈

最后一个主题,几场重磅访谈把模型公司的战略叙事彻底刷新了一遍。

Sam Altman + Greg Brockman 罕见同台:OpenAI 的重大重置

Sam Altman + Greg Brockman - 关于 OpenAI 的重大重置

最罕见的是 Sam Altman 和 Greg Brockman 在 Core Memory 播客上的同台。这是他们很长时间以来第一次一起接受播客采访

两个人从 2015 年那场决定创办 OpenAI 的晚宴讲起,复盘了从非营利到营利的转型、董事会冲突、Sam 那次被解雇的风波。但访谈最有信号价值的部分,是 OpenAI 这次的所谓重大重置:

  • 从模型即产品转向智能体基础设施
  • 为 Codex 战略性推迟 Sora。Codex 处理的是繁琐的电脑工作,是一个能让 AI 帮你完成日常的入口
  • Sam 提了个人 AGI 的概念,未来每个人都有一个深度了解你上下文、能代表你执行任务的 AI
  • 两个人都明确说,未来是一个由 80 亿个个人智能体驱动的计算经济

这个判断如果是对的,今天所有平台都会被重新定价。

访谈里还提了一个细节:OpenAI 现在面对的不只是产品竞争,还有大量对算力的物理需求。Sam 强调算力普惠是一个道德义务,集中在少数几家公司手里会加剧不平等。他还讲了这两年 OpenAI 经历的紧张时刻,包括一次他在自己家附近被人扔燃烧瓶的事件,以及他们正在和马斯克打的法律纠纷。但 Sam 的态度是把所有这些都看成发展中的成长烦恼,不影响 OpenAI 的核心战略。

→ 阅读原文:Sam Altman + Greg Brockman - 关于 OpenAI 的重大重置


Greg Brockman 单独:强化学习是从预测到推理的拐点

OpenAI 联合创始人 Greg Brockman 谈 AI 竞赛、Sam Altman 解雇风波与 AGI 未来

紧接着是 Greg 单独做客另一档英文播客 The Knowledge Project,主播是 Shane Parrish。这场更长,超过 2 万字,重点是他用强化学习这条主线串起了从 Dota 到 GPT-4 的整个历史。

他的核心判断:

强化学习是 AI 从预测走向推理的关键拐点。

预训练让模型学会了世界的统计规律,强化学习让模型学会了在没有明确答案的环境里探索和调整

他还预言未来的经济会被 80 亿个个人智能体重新结构化,主导力量会是大量中等智能的智能体协作,而非几个超级 AI。

访谈里 Greg 也坦率讲了 Sam 被罢免的内部博弈,团队当时表现出的忠诚度让他至今印象深刻。绝大多数员工都签了愿意跟 Sam 一起离开的承诺书

两场访谈对照看,Sam 和 Greg 的关系更像是早期合伙人那种相互依赖,和典型的 CEO 加总裁分工很不同。Greg 自己说他们俩平均一天通 5 次电话,每次几分钟,保持持续的同步。这种节奏是 OpenAI 这十年能在巨大压力下维持稳定的一个关键

→ 阅读原文:OpenAI 联合创始人 Greg Brockman 谈 AI 竞赛、Sam Altman 解雇风波与 AGI 未来


罗福莉首次长访谈:后训练时代的范式转变

138. 对罗福莉 3.5 小时访谈

第三场访谈是张小珺对小米大模型团队负责人罗福莉的 3.5 小时长谈。这是罗福莉的第一次正式技术访谈。她之前供职过阿里达摩院和 DeepSeek,目前主导小米 MiMo-V2 系列模型。

她给出了几个判断:

  1. 2026 年大模型战争进入第二幕:从预训练主导的对话时代转向后训练主导的智能体时代
  2. 国内顶尖团队的卡资源分配正在向预训练和后训练 1:1 的方向收敛
阶段过去(Chat 时代)现在(Agent 时代)
预训练60%33%
研究30%33%
后训练10%33%
  1. 研究效率因为智能体框架编排,已经从周级压缩到小时级

她直接说:过去自己以为做的工作已经足够有创造力,不会被 Skill 化和工作流化,但现在发现它竟然也能

这种自我冲击在一个亲手训模型的研究者身上发生,比任何外部预测都更说明问题。

她还提到一个判断:预训练模型从 1T 参数水平往上 scaling 是必经之路,但这条路上要押的是参数量,还是别的维度(比如多模态融合),是当下立刻需要决策的问题。这种判断会决定半年以后谁更领先。

罗福莉还谈到了一个很有意思的组织变化:做后训练现在的一个重要范式是需要多样性,让做预训练的人转去做后训练,能形成很好的补充。这种组织级的人员流动,意味着大模型公司内部的部门壁垒在被重新定义。

她说接下来两三个月会非常精彩:大家正在重新分配卡、重组团队、调整研究方向,谁能更快适应新范式,谁就有可能在下半年拿到领先

她还提到一个观察很值得想一想,研究者本身的工作也在被技能化。过去研究员引以为傲的是设计实验、分析结果、写论文这种创造性工作,但现在用智能体框架编排,整个研究循环可以被一段一段地外包给系统。这种自我冲击是从一个一线研究者口中说出来的,不是外部观察者的预测。这条信号比任何宏观判断都更具说服力

→ 阅读原文:138. 对罗福莉 3.5 小时访谈:AI 范式已然巨变


阮一峰《科技爱好者周刊》:第二次 API 开放浪潮

科技爱好者周刊 第 394 期:第二次 API 开放浪潮

最后想聊一下阮一峰的《科技爱好者周刊》本周这期。整期周刊汇总了很多本周值得一看的科技内容,推荐大家直接读原文。这里我只展开其中一段我印象最深的观察,第二次 API 开放浪潮。

阮一峰的判断是:

浪潮时间驱动力服务对象
第一次2011 年云服务兴起,平台希望第三方扩展应用程序
第二次2025 年下半年大模型必须调用其他平台AI 代表用户行事

第一次浪潮里,Facebook、Twitter、GitHub 都开放了 API,但后来因为商业模式跑不通,平台陆续关上了门。

本周正在发生的第二次浪潮则有本质差别:

  1. 开放范围:这次被卷进来的不只云服务,还有外卖、电商、银行、餐馆预订
  2. 调用方式:不用手动写代码,自然语言由大模型翻译后调用
  3. 使用目的:API 这次服务的对象从应用程序切换到了 AI,也就是代表用户行事的智能体

腾讯也意识到了这一点,所以才会在 OpenClaw 爆红后用最快速度开放微信接口,让智能体可以向微信发消息。强如腾讯都怕在智能体世界里没有自己的位置,其他平台都在抢着通过 MCP 开放自家的接口。

→ 阅读原文:科技爱好者周刊(第 394 期):第二次 API 开放浪潮


四篇访谈合起来看到的图景

  • OpenAI 在准备从模型公司转型为智能体基础设施公司
  • 罗福莉 在告诉国内同行卡的分配要变
  • 阮一峰 在告诉所有平台 API 开放是新的入场券

共同的底色是:2026 年的 AI 行业正在经历一次结构重组,基础设施层、模型层、应用层都在被重新定义。这种重组的速度比过去任何一次技术换代都要快,留给每家公司适应的时间窗口都很短。

变化速度极快

如果把这周这 20 篇内容做一次归纳,最值得记下的是一种新的分工:

  • 模型公司:把通用能力推到能可靠完成长程任务的水平
  • 基建公司:为智能体重新设计计算和路由层
  • 平台公司:开放接口让 AI 能代表用户行事
  • 开发者:用 Skill 和 Harness 把这一切组装成具体的工作流

每一层都在变,但每一层该做什么反而比以前更清晰了。


七、本周关键判断与下周展望

整体节奏回顾

整体节奏回顾

板块关键事件
模型层连发 4 款旗舰:GPT-5.5、DeepSeek-V4、Kimi K2.6、Images 2.0
OpenAI 生态Workspace Agents 给出可重复工作流的标准化
AI 编程实践Garry Tan 和 Cat Wu 给出工程纪律的两个标杆
国内智能体工程化腾讯云、阿里 Aegis、腾讯审核 L3 同周给出中文版第一性原理
大厂真实采纳Shopify CTO 反例式实践 vs 大厂 token 刷量异象
战略叙事Sam+Greg、罗福莉、阮一峰 分别从不同角度刷新模型公司转型故事

个人推荐

最值得花时间深读Shopify CTO 在 Latent Space 那场访谈。它把过去半年的所有抽象判断都落到了一个具体公司的具体动作上,让你看到 20 年老公司是怎么在 AI 时代重新定义工作方式的。

最值得跟着实践的方向Garry Tan 的 GStack 思路加上 Cat Wu 的 100% 自动化建议。这两件事放在一起,是任何一个想用 AI 改变自己工作方式的人都可以立刻开始的

下周值得关注什么

  • GPT-5.5 在更多真实场景里的反馈,尤其是它在长程任务上的稳定性
  • DeepSeek-V4 发布后的市场反馈
  • 国内智能体工程化继续深入,特别是其他大厂可能跟进给出自己的版本
  • BestBlogs 的后续开发:个性化推荐、早报图文体验、移动端、新增话题功能这几块都会陆续推进,进展会同步在周刊里

完整周刊

本期 20 篇精选完整列表:https://www.bestblogs.dev/newsletter/issue92

🎧 同步播客:EP37 · BestBlogs 周刊第 92 期 · 模型周(在小宇宙搜索 BestBlogs 周刊)

PS:欢迎大家添加 Gino 的微信(ID:ginobot)加入 BestBlogs 交流群,一起讨论 AI 相关话题。

Bye Bye

评论