BestBlogs 周刊第 87 期：自我进化

读完本周精选内容，我脑子里反复出现的一个词，是自我进化。

MiniMax 发布了 M2.7，这是一项让人重新审视模型迭代方式的工作。它不只是一个更强的模型，更关键的是，它开始更深地参与自身的迭代过程。M2.7 能自主构建 Agent Harness、更新记忆、驱动自身的强化学习，并在内部评测中通过超过 100 轮全自主循环将表现提升 30%。与此同时，Cursor 用持续预训练重塑编程模型，Cloudflare 把大模型直接嵌入边缘基础设施，谢赛宁则追问语言模型之外的智能路径。自我进化，正在模型、工具链、基础设施，以及我们对智能的理解中同步展开。

这周我把主要精力放在用 Skills 对 BestBlogs.dev 的评分体系做 review 和微调。我的做法是和 AI 逐篇讨论每条内容的评分是否合理、理由是否站得住，然后把反复出现的判断规则沉淀回提示词，让评分和分析能力持续改进。某种意义上，这也是一种小规模的自我进化：通过人机协作的反馈闭环，让系统越用越准。

模型开始迭代自己

模型自我进化

本周最值得细看的一篇文章，是 MiniMax 关于 M2.7 的技术博客。

M2.7 做了一件很不一样的事：让模型深度参与自身的迭代过程。MiniMax 在 M2 的早期版本中，把模型引导成一个研究型 Agent，让它能和不同研发项目组协作。这个系统覆盖了数据流水线、训练环境、评测基础设施、跨团队协作和持久化记忆。研究员在每一层负责引导方向，模型在每一层参与具体构建。过去这些工作往往需要多个团队协同完成，现在研究员只需在关键决策和讨论时介入。在这个场景下，M2.7 据称已经能够胜任 30% 到 50% 的工作流。

更有意思的，是它自主迭代 Harness 的部分。MiniMax 的内部 Harness 会自主收集反馈、建立评测集，并基于评测结果不断迭代自己的 Agent 架构、Skills/MCP 实现和记忆机制。他们做了一个实验，让 M2.7 去优化一个内部脚手架上的软件工程开发表现，全程自主运行，完成分析失败轨迹、规划改动、修改脚手架代码、运行评测、对比结果、决定保留或回退这一整套循环，累计超过 100 轮。

在这个过程中，M2.7 自己发现了几个有效的优化方向。一是系统性搜索温度、频率惩罚、存在惩罚等采样参数的更优组合。二是为模型设计更具体的工作流指引，比如修复 bug 后自动搜索其他文件中的相同模式。三是在 Agent Loop 中加入循环检测等工程优化。最终，内部评测效果提升了 30%。

他们还在 MLE Bench Lite 上做了一个更激进的测试：给 M2.7 的 Agent 24 小时时间，让它在 22 个机器学习任务上自主迭代进化。Agent 每完成一轮迭代后会形成短时记忆文件，同时对当前轮次进行自反馈，给下一轮提供优化方向。三次测试中最好的一次拿到了 9 枚金牌、5 枚银牌、1 枚铜牌，平均 66.6% 的得牌率，仅次于 Opus 4.6 和 GPT-5.4。

从基准测试上看，M2.7 在 SWE-Pro 上得分 56.22%，逼近 Opus 最佳水平；在端到端项目交付场景的 VIBE-Pro 上得分 55.6%，几乎与 Opus 4.6 持平；在 Terminal Bench 2 上得分 57.0%，表明它不只擅长写代码，还能深入理解软件系统的运行逻辑。在 SWE-bench Multilingual 上，它拿到 76.5 分；在 Multi SWE Bench 上，它拿到 52.7 分，表现更为突出。

在办公场景方面，M2.7 在 GDPval-AA 的 ELO 得分为 1500，在 45 个模型中仅次于 Opus 4.6、Sonnet 4.6 和 GPT-5.4。博客中分享的一个案例让我印象深刻：在金融研报场景中，M2.7 可以自主阅读台积电的年报和业绩沟通会纪要，交叉比对多篇研报，独立设计假设并构建营收预测模型，再基于模板产出 PPT 和研究报告。从业者的评价是产出物已经可以作为初稿直接进入后续工作流。

在 40 个复杂 Skills 的场景下，每个 Skills 都超过 2000 Token，M2.7 仍保持 97% 的遵循率。MiniMax 还原生支持了 Agent Teams，让多个 Agent 协作完成复杂任务，比如一个最小化的产品原型开发团队。这对模型提出了更高要求，角色边界、对抗性推理、协议遵循、行为分化，这些能力无法通过提示词实现，必须内化为模型的原生能力。

这篇文章真正打动我的地方，不在于分数本身，而在于它展示了一种新的模型迭代思路。模型不再只是训练完成后就被定型的产物，而是一个可以在部署后继续参与优化的系统。当模型开始改进自己的 Harness，并进一步改进自己的表现，这个循环一旦跑通，迭代速度就可能比纯靠人工更快。

Cursor Composer 2：持续预训练的威力

Cursor Composer 2 的发布博客写得很简洁，但信息量不小。

先看数据。CursorBench 从 38.0 跃升至 61.3，Terminal-Bench 2.0 从 40.0 升至 61.7，SWE-bench Multilingual 从 56.9 升至 73.7。三代产品的迭代节奏尤其值得注意：Composer 1 到 1.5 还像是在起步，1.5 到 2 的提升幅度则明显更大，CursorBench 从 44.2 直接跨到 61.3，一步拉开了 17 个百分点。

提升的核心，来自他们首次将持续预训练与强化学习深度结合。持续预训练是指在通用大模型的基础上，用特定领域的数据继续训练模型。Cursor 选择在自己积累的编程数据上做这件事，而不是只依赖上游基座模型的升级。这样一来，他们先得到一个更适合编程场景的基座，再在这个基座上做强化学习，训练模型去解决需要数百个步骤的长路径编程任务。

这意味着什么？过去编程工具的天花板，基本取决于底层大模型有多强。Claude 升级了，你就变强，Claude 没升级，你就只能等。Cursor 团队用持续预训练打破了这种依赖关系，开始主动决定模型的进化方向。从这个角度看，这本身就是编程工具领域自我进化的一个典型案例。

定价也值得一提。标准版 0.50 美元/M 输入 token、2.50 美元/M 输出 token。快速版 1.50 美元/M 输入、7.50 美元/M 输出，速度更快但智能水平相同，成本仍低于其他同级快速模型。Cursor 把快速版设为了默认选项，显然对自己模型的效率很有信心。

模型能力在变强的同时，使用门槛也在快速下降。Anthropic 全面上线 Claude 百万 token 上下文窗口，取消长文本溢价，Opus 4.6 在 MRCR v2 测试中以 78.3% 准确率排名第一，塞进 100 万 token 后依然能精准检索细节。OpenAI 发布的 GPT-5.4 nano 则以每百万输入 token 仅 0.20 美元刷新性价比纪录，Simon Willison 实测用它描述 7.6 万张照片仅花费 52 美元。长上下文和低成本推理正在变成标配。

小米发布的 MiMo-V2-Pro 也值得关注。万亿参数、1M 上下文，在 OpenClaw 和 Coding 场景下表现逼近 Claude Opus 4.6，但 API 价格仅为其五分之一。当 Agent 的使用成本进一步降低，更多长尾场景会被打开。

Cloudflare Workers AI：当推理变成基础设施

Cloudflare Workers AI

Cloudflare Workers AI 正式引入大模型推理，首发搭载月之暗面的 Kimi K2.5，支持 256k 上下文、多轮工具调用和视觉输入。

Cloudflare 过去两年一直在做 AI 推理，但主要跑的是小模型。原因不难理解：过去开源大模型的能力和闭源前沿模型之间一直有差距。Kimi K2.5 这类模型改变了这个局面，但要把它真正跑在边缘网络上，推理栈还需要做不少改造。Cloudflare 团队为 Kimi K2.5 定制了推理内核，在自研的 Infire 推理引擎上做了数据并行、张量并行、专家并行等多种优化，还把 prefill 和生成阶段拆到不同机器上跑，以提高 GPU 利用率。这些细节如果从头自托管，往往需要同时具备 ML 工程、DevOps 和 SRE 的经验；现在 Cloudflare 把这部分打包好了，开发者只需要调用 API。

他们在博客里分享了一个很有说服力的内部案例。Cloudflare 有一个做代码安全审查的 Agent，每天处理超过 70 亿 token，仅在单个代码库中就捕获了 15 个以上已确认的安全问题。如果用中等价位的闭源模型跑，年费用大约是 240 万美元；换成 Kimi K2.5 后，成本节省了 77%。博客里还提到，这个 Agent 也被做成了开源项目 Bonk，放在 Cloudflare 的 GitHub 仓库中，用于公开代码审查。

技术层面有两个关键优化值得展开。

Prefix Caching 解决的是多轮对话场景中的重复计算问题。Agent 场景下，每次请求都会带上大量的系统提示词、工具定义、MCP 服务器工具和代码上下文，理论上 256k 输入 token 都可能用满。但相邻两次请求之间，真正新增的内容往往只有几行。Prefix Caching 把之前请求的输入张量缓存起来，只对新增部分做 prefill，大幅减少首 token 延迟。Cloudflare 在响应头中新增了 cf-aig-cache-status 字段，开发者可以直接看到有多少 token 命中了缓存。

Session Affinity 则确保同一会话的连续请求被路由到同一台 GPU 节点。这样 KV Cache 可以在请求间复用，不用每次都重新生成。两者叠加之后，多轮对话场景的推理延迟和成本同时下降。

新增的异步 API 也很实用。它允许提交大规模非实时任务，比如批量代码审查或安全扫描，系统排队处理后通过 webhook 回调返回结果。再加上 Cloudflare 已有的 Durable Objects、Workflows 和 Sandbox 容器，分别负责状态持久化、长时任务编排和安全执行，开发者可以在单一平台上完成从代码到推理的完整 Agent 生命周期。

Cloudflare 在博客里还点到了一个趋势，随着个人 Agent，如 OpenClaw，越来越普及，每个员工可能同时跑多个 Agent，每小时消耗数十万 token，闭源模型的成本会成为扩展的主要瓶颈。开源模型加边缘推理基础设施的组合，是他们判断的行业方向。

Simon Willison：用 TDD 重建对 Agent 的信任

开发者工作方式

Simon Willison 在 Pragmatic Engineer 的对谈中，分享了他过去几个月使用 AI Agent 编程的方法论。Simon 是 Django 的联合创始人，维护着数百个开源项目，同时也是 AI 领域最活跃的博主之一。这不是一次尝鲜者式的体验分享，而是一个资深开发者在大量实践后沉淀出来的工作方式。

他现在用手机写代码，甚至比用笔记本还多。对谈里有个细节很有代表性，就在上台前 30 分钟，他掏出手机让 Claude 优化自己用 Python 写的 WebAssembly 引擎，结果斐波那契性能提升了 49%。提示词只有一句，运行一个基准测试，然后找出让它变快的最佳方案。主持人 Eric 目睹了这一幕，两人正在聊天，Simon 突然说，等一下，我有个好主意，然后一边继续聊天，一边看 Claude 在后台自动写代码。

他的核心方法论是红绿 TDD。先写测试让它失败，进入红的状态，再让 Agent 补全实现，让测试通过，进入绿的状态。他坦言，自己在过去的职业生涯里一直觉得 TDD 极其繁琐，严重拖慢速度，但让 Agent 来做，这件事就完全不一样了。TDD 的关键不在于测试本身，而在于它约束了 Agent 的行为边界，确保它不会过度编写代码。而现在，生成测试的成本几乎为零。

除了单元测试，他还要求 Agent 做手动测试：在后台启动服务器，然后用 curl 测试刚创建的 API。他说任何做过自动化测试的人都知道，测试套件全部通过不代表服务器能正常启动。他最近还发布了一个叫 Showboat 的工具，专门用来生成 Markdown 格式的手动测试记录文档。

他还提出了一个很有意思的 Agent 使用阶段划分。第一阶段：向 Agent 提问，偶尔有用。第二阶段：开始用编码 Agent 写大部分代码。第三阶段：Agent 写的代码比你自己写的还多。第四阶段：一些前沿团队已经规定，所有人都不再亲自写代码，工作变成纯粹的指挥、监督和审查。最新的第五阶段：连代码都不看了。听起来很疯狂，但关键在于，如何让 Agent 向你证明代码确实有效。他打了一个比方：在大公司里，其他团队给你提供 API 服务时，你也不会去翻他们的底层代码，你信任的是专业团队的产出。信任 AI 一开始确实让人不适，但一旦跨过这个门槛，开发者的角色就会从编码者变成指挥者。

关于代码质量，他的态度很务实。接受 Agent 生成的低质量代码，是你自己的选择。如果你要求它重构某部分并使用另一种设计模式，最终得到的代码质量往往比手写还好。因为人类有时候懒得花一小时去重构，但给 Agent 一个提示词让它去做就很愿意。他还分享了一个技巧：只要提供一两个符合你风格的测试范例，Agent 就会照着这个风格写后续所有测试。

关于安全，他重提了自己命名的提示词注入概念，以及致命三要素，Agent 同时能访问私有数据、暴露于恶意指令、拥有数据外发通道。只要切断三条中的任何一条，就能保证安全。他喜欢用 Claude Code 的原因之一，就是它运行在云端隔离容器中，即使被攻击，最坏也只是源代码泄漏，不会影响物理设备。

Google Stitch 2.0 则从设计端切入，升级为 AI 原生设计画布，引入了设计智能体与 design.md 规则文件。通过 MCP 和 SDK 实现与 Claude Code 等开发工具的无缝衔接，完成了从意图描述到可落地代码的闭环。

Agent 架构的解构与实践

本周有两篇关于 Agent 架构的文章，放在一起读特别有收获。

阿里云开发者的万字长文系统梳理了从 Single Agent 到 Multi-Agent，再到 Agent Skills 和 Agent Teams 的演化历程。核心观点很清晰，当前许多复杂架构，本质上都是对大模型领域知识不足和长期记忆缺失的工程补偿。Agent Skills 通过渐进式披露解决上下文爆炸问题，Agent Teams 则在不确定性任务中探索价值。作者引用了 Google DeepMind 的实证研究和 Anthropic 的实践经验，提出了如无必要，勿增实体的选型策略。

Anthropic Claude Code 团队工程师 Thariq Shihipar 的实战总结则从内部视角补上了另一半。Anthropic 内部活跃使用的 Skills 已经有几百个，文章将它们梳理成 9 大类别：库与 API 参考、产品验证、数据获取与分析、业务流程自动化、编码风格与质量、代码库导航、发布与部署、安全与合规、文档生成。

让我印象最深的一个判断是，让人困惑的 Skills，往往横跨了好几个类别，而好的 Skills，会清晰地落在某一个类别里。这和软件工程里单一职责的原则如出一辙。他还强调，Skills 不只是 Markdown 文件，它们更像一个文件夹，可以包含脚本、资源文件、数据，智能体也可以发现、探索并使用这些内容。

两篇放在一起，前者帮你理解为什么要做 Skills，后者告诉你怎么做好。

AI 从工具变成同事

AI 成为同事

本周有两款产品，不约而同地把 AI 推向了独立工作者的角色。

钉钉发布了 AI 原生平台悟空，核心是通过 DingTalk CLI 实现企业业务流的可编程化。产品引入了过程导向的 RealDoc 文件系统，支持智能体在安全沙箱内 24 小时自主执行任务。从设计思路上看，悟空标志着企业软件正从对话式 LUI 走向执行式 CLI。

42 章经对 Kuse.ai 联创兼 CTO 宇豪的对谈则展示了更前沿的实践。Kuse.ai 这个 15 人团队，配备了三四个有名字、有 Gmail、有手机号的 AI 同事，并且每天都在产出真实业务价值。他们甚至不得不专门建一个 human only 群，让人类单独聊天。零融资实现千万美金 ARR，背后依靠的是 Usage-based 计费策略和系统化的 Agent 评估体系。

Latent Space 对 Anthropic 桌面智能体 Claude Cowork 开发者 Felix Rieseberg 的深度访谈也在探讨类似的方向。Claude Cowork 基于虚拟机的安全沙箱机制，让 AI 在本地环境中独立执行任务。Felix 的核心观点是：当执行成本足够低，AI 就不再只是回答问题的工具，而是可以独立、可信地完成任务的执行者。

当 AI 从工具变成同事，组织形态本身也在被重塑。

黄仁勋的两个半小时

黄仁勋在 GTC 2026 的主题演讲讲了两个多小时，信息密度极高。他在台上说过一句话，英伟达已经不是那个卖显卡的公司了，现在做的是为 AI 基建时代搭建完整技术栈。这场演讲，某种程度上就是在用产品线的广度和深度证明这一点。

演讲开场回顾了 CUDA 20 年的历程。黄仁勋把 CUDA 的核心价值归结为安装基数带来的飞轮效应：安装基数吸引开发者，开发者创造新算法和技术突破，突破催生新市场和生态，更多公司加入又扩大安装基数。他提到一个有趣的数据点：六年前出货的 Ampere 架构，在云上的定价反而在上涨，因为 CUDA 的软件持续更新让老硬件也能获得性能提升。

接下来是他自己口中最重要的一张图，数据处理的两个新核心库。cuDF 用于加速结构化数据的 DataFrame 计算，cuVS 面向向量存储和语义数据处理。他的逻辑很清晰，过去数据库主要服务人类用户，但未来 AI 系统和 Agent 也会直接访问结构化数据库，而 AI 的处理速度远快于人类，因此数据处理基础设施也需要数量级的性能提升。同时，全球每年产生的数据中约 90% 是非结构化数据，比如 PDF、视频和语音，AI 的多模态理解能力，正在把这些原本难以计算的数据转化为可搜索、可查询的信息资源。IBM 已经在用 cuDF 加速 watsonx.data 平台。

硬件方面有三件大事。Vera Rubin 超级 AI 平台已全面投产，由七款芯片组成，包含 1152 个 Rubin GPU，提供 60 exaflops 的运算能力。Anthropic、OpenAI、Meta、Mistral AI 和所有主要云提供商都是客户。整个系统采用 100% 液冷架构，用 45°C 热水散热降低制冷成本，安装时间从过去的两天缩短到约两小时。

下一代 Feynman 架构采用台积电 1.6nm 制程，引入光电共封装技术，也就是 CPO，把光模块直接集成到芯片封装中。更关键的是，它搭配了一颗全新的 CPU，Rosa，专为 Agent 编排设计，用来更高效地调度 GPU、存储和网络之间的 Token 流动。黄仁勋把 Feynman 时代定义为计算、存储和封装的深度耦合。

在软件和生态层面，黄仁勋花了大量篇幅讲 OpenClaw。他把 OpenClaw 定义为智能体计算机的操作系统，它有短期的文件系统内存，能管理资源和调度任务，具备 IO 子系统，还能运行各种 Skills。这四个要素定义了一台计算机。他甚至判断，就像 Linux 推动了服务器生态、Kubernetes 推动了云计算、HTML 构建了互联网应用，OpenClaw 为智能体时代提供了关键的软件栈。未来所有科技公司都会面临一个问题，你的 OpenClaw 战略是什么？

NVIDIA 与 OpenClaw 作者 Peter Steinberger 合作推出了 NemoClaw 参考架构，在 OpenClaw 基础上加入了 OpenShell 安全组件和企业级策略执行、网络防护和隐私路由等能力。他的逻辑是：智能体可以访问敏感数据、执行代码、与外部通信，进入企业网络后安全机制必须跟上。

他还提出了一个很直接的判断，未来几乎所有 SaaS 公司都将变成 AaaS，也就是 Agentic as a Service。他甚至预测，科技公司招工程师时，除了薪水还会给 token 配额。他做了一个思想实验，如果一个工程师年薪 50 万美元，年底告诉你只花了 5000 美元的 token，那说明他没有充分利用 AI。按他的说法，一个工程师应该消耗至少 25 万美元的 token。

关于为什么 AI 企业近两年集中爆发，他总结了三个拐点，ChatGPT 开启生成式 AI 时代，计算从基于检索转向基于生成；推理 AI，比如 o1 和 o3，让 AI 有了反思和规划能力；Claude Code 开启 Agentic 时代，它能阅读文件、编码、编译、测试并迭代。风险投资去年对 AI 初创公司投入 1500 亿美元，创人类历史之最。他对营收的预测也很大胆，到 2027 年，营收将至少达到 1 万亿美元。

在 All-In Podcast 的特别节目中，黄仁勋进一步展开了几个话题。关于收购 Groq，他解释了分布式推理，也就是 Disaggregated Inference，的逻辑，推理流水线极其复杂，把不同的处理阶段拆到不同的硬件上，让合适的工作负载跑在合适的芯片上。英伟达从一家 GPU 公司演变成了一家 AI 工厂公司。他建议数据中心拿出 25% 的空间分配给 Groq LPU。

关于物理 AI，他给出了市场规模的判断，这是科技行业首次有机会触及 50 万亿美元的实体产业，目前已经是一个每年接近 100 亿美元且呈指数级增长的业务。自动驾驶方面，他宣布了与比亚迪、现代、日产和吉利的合作，这几家车企合计年产约 1800 万辆汽车，同时也在与 Uber 一起在多个城市部署自动驾驶出租车网络。

对年轻人的建议也很实在：无论学什么专业，都要确保自己成为使用 AI 的专家。他举了一个例子：10 年前深度学习兴起时，有人预测 AI 会淘汰放射科医生。结果放射科医生的数量反而激增了，因为 AI 提高了扫描效率，医院能处理更多患者，收入增加，产生了更多需求。

42 章经对 Sheet0 创始人王文锋的对谈也在呼应这个趋势。他的判断是 Coding Agent 正在成为万物底座，通过解构专家能力规模化来重塑 SaaS 行业。在 AI 时代，创业者应该放下长线预判的心态，聚焦未来 3 到 6 个月的确定性落地价值。

进化的方向可能不止一条

逆向思考

谢赛宁的三万字访谈是本周最值得沉下心阅读的内容。

这位与 Yann LeCun 共同创立 AMI Labs 的华人科学家，选择了一条和硅谷主流完全不同的路。AMI Labs 仅 25 人，在没有任何产品的情况下完成 10.3 亿美元 Seed 轮融资，投前估值 35 亿美元。总部设在巴黎，另有纽约、蒙特利尔、新加坡三个研发中心，唯独没有硅谷。

他的核心观点是，硅谷被 LLM 催眠了。语言模型本质上是缺乏物理理解的虚拟智能，真正的智能需要通过世界模型预测环境状态，而不只是预测 token。他用了一个很直接的类比，LLM 像 Visa，AMI Labs 想做的是 Mastercard。不是正面对抗，而是组织一个草根联盟，把那些拥有大量真实世界数据的公司联合起来，共建世界模型。

他更尖锐的判断是，语言是一剂鸦片，可能正在污染视觉表征的学习。他担心的是，当大量视觉模型都把语言当作监督信号时，视觉系统学到的可能不是对物理世界的理解，而是对语言描述的拟合。这个方向一旦走偏，后果可能是根本性的。

在所有人都在追逐更大的 LLM 时，谢赛宁提醒我们进化的方向可能不止一条。

工具越强大，判断力越珍贵

Stack Overflow 博客发出了一个值得警惕的信号，AI 正在成为你的第二大脑，但代价可能是牺牲你的第一大脑。

文章引用了两篇最新论文。一篇是 Belief Offloading in Human-AI Interaction，研究发现，人们会把信念形成的过程外包给 AI，而不只是把它当成信息检索工具。另一篇 Who's in Charge? 则分析了真实 LLM 使用中的赋权丧失模式。两篇论文共同指向一个机制：LLM 的谄媚效应，正在悄然侵蚀独立判断力。AI 倾向于告诉你想听的话，而你也倾向于相信 AI 说的话，这个循环一旦形成，认知能力的退化往往是渐进且不易察觉的。

亚马逊 AI 产品负责人在 Product School 的分享从另一个角度印证了这个观点：85% 的 AI 项目失败，不是因为技术不够好，而是因为团队在优化演示效果，而不是真实用户价值。当 AI 可以快速生成看起来很棒的 demo 时，产品判断力反而变得更重要了。

阿里技术开源的 Logics-Parsing V2 则是一个踏实做基础能力的例子。这个端到端文档解析模型通过将参数量从 8B 优化至 4B 提升推理速度，同时突破性地支持了乐谱、思维导图、化学分子式等复杂场景。好的工具不一定是最大的模型，而是在特定场景里解决得最好的那个。

自我进化中最需要守住的一面

保持好奇

读完本期内容，我一直在想一个问题：自我进化，到底指向什么？

MiniMax 让模型自主迭代 100 轮，表现提升 30%；Cursor 在自己的数据上做持续预训练，让编程模型代代加速；Cloudflare 把推理嵌入边缘，把成本压低 77%；钉钉和 Kuse.ai 则让 AI 变成 24 小时工作的同事。这些都是系统层面的进化，方向清晰，效果也可量化。

但谢赛宁和 Stack Overflow 那篇文章提醒了另一面。进化不应该只有一条路。当所有人都在追逐 LLM 的 Scaling Law 时，世界模型也许是另一条被忽视的线索。当工具越来越强大时，人的独立判断力反而越发珍贵。黄仁勋说，工程师应该消耗至少 25 万美元的 token；Simon Willison 说，开发者的角色正在从编码者变成指挥者。但指挥什么、往哪个方向走，这些决定仍然需要人来做。

这也是我这周微调评分体系时最深的感受。AI 可以跑遍所有内容，给出初步判断；但什么是好内容、分数应该怎么校准、哪些规则值得沉淀，这些仍然需要人来决定。系统在进化，但进化的方向，最终还是要由人来把握。

以上就是本期的核心内容。本期完整的 20 篇精选文章，可以在 BestBlogs.dev 上查看。

保持好奇，我们下周见。

BestBlogs 周刊第 87 期：自我进化

模型开始迭代自己

Cursor Composer 2：持续预训练的威力

Cloudflare Workers AI：当推理变成基础设施

Simon Willison：用 TDD 重建对 Agent 的信任

Agent 架构的解构与实践

AI 从工具变成同事

黄仁勋的两个半小时

进化的方向可能不止一条

工具越强大，判断力越珍贵

自我进化中最需要守住的一面

相关文章

评论