GinoGino

《智能体设计模式》前言部分[译]

29 分钟阅读人工智能

《智能体设计模式》中文翻译计划启动

正如《设计模式》曾是软件工程的圣经,这本由谷歌资深工程主管免费分享的《智能体设计模式》,正为火热的 AI 智能体领域带来首套系统性的设计原则与最佳实践。

接下来的一周,我将通过 AI 初次翻译 → AI 交叉评审 → 人工精读优化的方式来翻译这本书,所有翻译内容将持续更新到开源项目:github.com/ginobefun/agentic-design-patterns-cn

本书由 Antonio Gulli 撰写、谷歌 Cloud AI 副总裁 Saurabh Tiwary 作序、高盛 CIO Marco Argenti 鼎力推荐,系统性地提炼出 21 个核心智能体设计模式,涵盖从提示链、工具使用到多智能体协作、自我修正等关键技术。更难得的是,本书的所有版税都将捐赠给救助儿童会,这是一份真正属于开发者社区的公益之作。

前言部分精华概览

前言部分内容丰富,这里为大家梳理几个关键要点:

1. 来自行业领袖的深度洞见

谷歌 Cloud AI 副总裁 Saurabh Tiwary 在序言中指出,我们正在从构建「仅能处理信息的模型」,迈向创造「能够推理、规划和行动的智能系统」。他将智能体开发比作在画布上创作,而设计模式正是这块画布上的基本笔触。

高盛 CIO Marco Argenti 则以「权力与责任」为题,分享了他对智能体技术的深刻思考。他坦言自己最初是怀疑的——早期模型「被优化的目标是追求可信度,而非正确性」。但推理模型的出现带来了质的飞跃,他第一次试用智能体编程工具时,「感受到了那种久违的、如魔法般的火花」。

更重要的是,Marco 强调了专业精神和企业文化的重要性。在金融这样高风险的领域,智能体的失误代价巨大。他提出的三大原则值得所有开发者铭记:

  • 为使命而构建:确保每个智能体都始于对客户问题的清晰理解
  • 洞见未来,防患未然:预见失败模式,设计具有韧性的系统
  • 启迪信任,不负所托:对方法保持透明,对结果负责

2. 什么是智能体系统?

书中给出了清晰的定义:智能体系统是一种能够感知环境、根据目标做出决策、并自主执行行动的计算实体。

不同于遵循固定脚本的传统软件,智能体系统具备以下核心特征:

  • 自主性:无需持续人工监督即可行动
  • 主动性:能主动发起行动以实现目标
  • 反应性:能有效应对环境变化
  • 工具使用:与外部 API、数据库或服务交互
  • 记忆:在多次交互中保留信息
  • 通信:与用户、系统或其他智能体交互

3. 智能体的演进层级

书中提出了一个实用的智能体分级框架:

  • 0 级:核心推理引擎 - 大语言模型本身,仅基于预训练知识响应,无法感知当前事件。

  • 1 级:连接外部的问题解决者 - 能够使用外部工具来解决超出预训练知识范围的问题。这是 RAG 技术的典型应用场景。

  • 2 级:战略性问题解决者 - 具备战略规划、主动协助和自我提升能力。核心赋能技能是提示工程和上下文工程。它能够战略性地选择、打包和管理最相关信息,确保高效决策。

  • 3 级:协作型多智能体系统 - 这是一次重大范式转变:不再追求单一全能的超级智能体,而是转向复杂的、协作式的多智能体系统。就像人类组织一样,由不同专家组成的团队协同工作,通过劳动分工和协调产生强大的协同效应。

4. 智能体的未来:五大假设

书中对智能体的未来提出了五个极具前瞻性的假设:

  • 假设 1:通用智能体的崛起 - 从狭隘专家演变为能高可靠性管理复杂、模糊、长期目标的通用型选手。替代路径是「乐高式」的小型语言模型组合。

  • 假设 2:深度个性化与主动发现目标 - 智能体将成为深度个性化的主动合作伙伴,不仅响应指令,更能预测需求,主动发现和支持用户的潜在目标。

  • 假设 3:具身化与物理世界交互 - 通过与机器人技术结合,智能体将挣脱数字束缚,在物理世界中运作,弥合数字智能与物理行动的鸿沟。

  • 假设 4:智能体驱动的经济 - 高度自主的智能体将成为经济中的积极参与者,创造新的市场和商业模式,形成超高效率的「智能体经济」。

  • 假设 5:目标驱动的、可演化的多智能体系统 - 系统能基于声明性目标自主运作,动态修改多智能体工作团队的拓扑结构,在架构层面和指令层面实现真正的自我演化。


以下为原书前言部分内容,译者:@Gino

序言

人工智能领域正处在一个激动人心的转折点。我们正在从构建仅能处理信息的模型,迈向创造能够推理、规划和行动,以便在任务模糊的情况下达成复杂目标的智能系统。正如本书所精准描述的,这些「智能体」系统代表了 AI 的下一个前沿,其研发工作是一项挑战,也正是这份挑战在激励和鼓舞着我们谷歌的每一个人。

《智能体设计模式:构建智能系统的实践指南》恰逢其时,为我们的旅程指明方向。本书明确指出,作为这些智能体认知引擎的大语言模型,其强大的力量必须通过结构和精心的设计来驾驭。正如设计模式通过为常见问题提供通用语言和可复用的解决方案,为软件工程带来了革命性的变革一样,本书中的智能体模式也将成为构建稳健、可扩展、可靠智能系统的基石。

将构建智能体系统比作一块「画布」,这个比喻与我们在谷歌 Vertex AI 平台上的工作产生了深刻的共鸣。我们致力于为开发者提供最强大、最灵活的画布,让他们能够在其上构建下一代 AI 应用。本书则提供了翔实的实战指导,赋能开发者充分发挥这块画布的全部潜力。通过探索从提示链、工具使用到智能体间协作、自我修正、安全性与护栏等一系列模式,本书为所有期望构建复杂 AI 智能体的开发者提供了一个全面的工具包。

AI 的未来将由那些能够构建智能系统的开发者的创造力和独创性来定义。《智能体设计模式》是释放这种创造力不可或缺的资源。它提供了必要的知识和实践示例,不仅帮助我们理解智能体系统「是什么」「为什么」,更能掌握「如何做」。

看到这本书能交到广大开发者社区的手中,我倍感激动。毫无疑问,书中所蕴含的模式与原则,将加速那些创新且影响深远的 AI 应用的开发进程,而这些应用将在未来数年里塑造我们的世界。

Saurabh Tiwary,Google CloudAI 副总裁兼总经理


思想领袖的洞见:权力与责任

在过去四十年我所见证的所有技术浪潮中——从个人电脑和互联网的诞生,到移动和云计算的革命——没有一次像今天这样。多年以来,围绕人工智能的讨论始终遵循着一种熟悉的节奏:始于大肆宣传,终于幻想破灭,所谓「AI 之夏」之后,总是伴随着漫长而寒冷的冬天。但这一次,情况有所不同,风向发生了切实的转变。如果说过去的十八个月是关于「引擎」的故事——即大语言模型那惊人的、近乎垂直的飞跃——那么下一个时代将是关于我们如何围绕它造出一辆「汽车」。这个时代,将关乎我们如何构建框架来驾驭这股原始的力量,把它从能生成看似合理文本的工具,打造成真正能付诸行动的智能体。

坦白说,我起初是怀疑的。我发现,一件事物的「貌似可信度」,往往与我们对该主题的了解程度成反比。早期的模型,尽管语言流畅,却仿佛患上了「冒名顶替综合征」,它们被优化的目标是追求可信度,而非正确性。然而,转折点随之而来——推理模型的出现,实现了一次质的飞跃。那一刻,我们对话的对象不再仅仅是那个预测词语的统计机器;我们所窥见的,是一种正在萌芽的全新认知。

当我第一次试用一款新型的智能体编程工具时,我感受到了那种久违的、如魔法般的火花。我让它去做一个一直无暇推进的个人项目:把一个慈善网站从简易的网页构建器,迁移到一个规范、现代的 CI/CD 环境中。在接下来的二十分钟里,它开始工作,不断提出澄清问题,请求授权凭证,并提供进度更新。这感觉不像是在使用一个工具,更像是在与一位初级开发人员协作。当它最终向我提交一个带有无可挑剔的文档和单元测试、可完全部署的软件包时,我被彻底震撼了。

当然,它并非完美。它会犯错,会卡住。它需要我的监督,以及至关重要的——我的判断力来引导它重回正轨。这次经历让我深刻地体会到了我在漫长的职业生涯中历经坎坷才学到的一个教训:你永远不能盲目信任。然而,这个过程本身却极其迷人。窥视它的「思维链」,宛若观看一颗大脑的运作——杂乱、非线性,充满开始、停顿与自我修正,这与我们人类的推理别无二致。那不是一条直线,而是一场通往解决方案的随机游走。在这里,我看到了新事物的雏形:一种不仅能生成内容,更能制定计划的智能。

这便是智能体框架所带来的希望。它就像一张静态的地铁线路图与一个能为你实时重新规划路线的动态 GPS 之间的区别。一个经典的、基于规则的自动程序遵循固定的路径,当遇到意外障碍时,它就会崩溃。而一个由推理模型驱动的 AI 智能体,则有潜力去观察、适应并找到另一条路。它拥有一种数字化的常识,使其能够应对现实世界中无数的边缘案例。这代表着一种转变:我们不再是简单地告诉计算机「做什么」,而是向它解释「为什么需要做某件事」,并相信它能自己找出「如何做」。

尽管这个新领域令人振奋,但它也带来了一种深远的责任感,尤其从我作为一家全球金融机构首席信息官的视角来看更是如此。这里的风险之高,不可估量。一个智能体在为「鸡肉三文鱼融合派」创建菜谱时犯了错,不过是个有趣的轶事。但如果一个智能体在执行交易、管理风险或处理客户数据时犯了错,那就是一个实实在在的大问题。我读过那些免责声明和警示故事:一个网络自动化智能体在登录失败后,竟然决定给一位国会议员发邮件抱怨登录墙。这是一个黑色幽默般的提醒:我们正在打交道的,是一项我们尚未完全理解的技术。

正是在这里,专业精神、企业文化以及对原则的执着追求,成为了我们至关重要的指南。我们的工程信条不是纸上的口号,而是我们的指南针。我们必须为使命而构建:确保我们设计的每一个智能体都始于对我们正在解决的客户问题的清晰理解。我们必须洞见未来,防患未然:预见各种失败模式,并设计出具有内在韧性的系统。最重要的是,我们必须启迪信任,不负所托:对我们的方法保持透明,对我们的结果负责。

在一个智能体化的世界里,这些信条被赋予了新的紧迫性。一个残酷的现实是,你不可能简单地将这些强大的新工具叠加在混乱、不一致的系统之上,并期望得到好的结果。混乱的系统加上智能体,只会酿成灾难。一个用垃圾数据训练出来的 AI,不仅会产生垃圾结果,它还会产生貌似可信、充满自信的垃圾,足以毒化整个流程。因此,我们首要且最关键的任务,是打好基础。我们必须投资于干净的数据、一致的元数据和定义良好的 API。我们必须建立起现代化的「州际高速公路系统」,让这些智能体能够安全、高速地运行。这是一项艰巨的基础性工作,其目的就是构建一个可编程的企业——即实现「企业即软件」的理念,从而让我们的业务流程也能像代码一样,拥有精良的架构。

归根结底,这段旅程并非要取代人类的智慧,而是要增强它。它要求我们所有人掌握一套新的技能:清晰解释任务的能力,明智授权的智慧,以及验证产出质量的勤勉。它要求我们保持谦逊,承认自己的未知,并永不停止学习。本书接下来的篇章给出搭建这些新框架的技术地图。愿各位不止于把可能之事做成,更能把正确、可靠且负责任的事做好。

这个世界正在召唤每一位工程师挺身而出。我相信,我们已经准备好迎接挑战。

愿你享受这段旅程。

Marco Argenti,高盛首席信息官(CIO)


介绍

前言

欢迎阅读《智能体设计模式:构建智能系统的实战指南》。纵观当今人工智能领域,我们能清晰地看到一条演进路线:从简单的响应式程序,到复杂的自主实体,后者能够理解上下文、做出决策,并与所处环境及其他系统进行动态交互。这些,便是智能体以及由它们构成的智能体系统。

强大的大语言模型的问世,为理解和生成类人内容(如文本和媒体)提供了前所未有的能力,并担当了许多这类智能体的认知引擎。然而,要将这些能力编排成能够可靠达成复杂目标的系统,仅仅拥有一个强大的模型是远远不够的。它还需要结构、设计,以及一套经过深思熟虑的方法,来指导智能体如何感知、规划、行动和交互。

不妨将构建智能系统想象成在一块画布上创作复杂的艺术品或工程作品。这块画布并非一块空白的视觉空间,而是指那些为智能体提供生存和操作环境的底层技术设施和框架。它是您构建智能应用所依赖的基石,负责管理状态、通信、工具访问和逻辑流。

想在这块智能体的画布上高效构建,简单地堆砌组件是远远不够的。我们需要掌握一套行之有效的技术,也就是模式。这些模式,是专门为了解决智能体设计与实现过程中的常见挑战而存在的。这就像建筑有建筑模式,软件有设计模式一样。最终,智能体设计模式的作用,就是为那些反复出现的老问题提供一套经过验证、可复用的解决方案,帮助你将智能体成功地构建出来。

什么是智能体系统?

从本质上讲,智能体系统是一种计算实体,它能够感知环境(包括数字环境和可能的物理环境),根据感知结果以及预设或学习到的目标做出决策,并自主执行行动以实现目标。与遵循严格逐步指令的传统软件不同,智能体展现出一定的灵活性和主动性。

想象一下,你需要一个系统来管理客户咨询。传统系统可能会遵循固定的脚本。而一个智能体系统则能够感知客户提问的细微差别,访问知识库,与公司其他内部系统(如订单管理系统)交互,还可能提出澄清性问题,并主动解决问题,甚至可能预测客户未来的需求。这些智能体就在您应用程序基础设施这块画布上运行,利用提供给它们的服务和数据。

智能体系统通常具备以下特征:自主性(Autonomy),使其无需持续的人工监督即可行动;主动性(Proactiveness),能主动发起行动以实现其目标;反应性(Reactiveness),能有效应对环境变化。它们以目标为导向,持续推进任务。关键能力还包括工具使用(Tool Use),使之能够与外部 API、数据库或服务交互,将触角伸出自身运行环境;它们拥有记忆(Memory),能在多次交互中保留信息,并能与用户、其他系统、乃至在相同或互联的画布上运行的其他智能体进行通信(Communication)

要有效地实现这些特性,会带来巨大的复杂性。智能体如何在它的画布上跨越多个步骤来维持状态?它如何决定何时以及如何使用某个工具?不同智能体之间的通信如何管理?你又该如何在系统中确保可靠性,以处理意外结果或错误?

为什么模式在智能体开发中很重要

这种复杂性,恰恰凸显了智能体设计模式的不可或缺。它们并非僵化的规则,而是久经沙场的模板或蓝图,为智能体领域中标准的设计和实现挑战提供了经过验证的方法。通过识别并应用这些设计模式,你将获得一套成熟的解决方案,从而提升你在画布上所构建智能体的结构性、可维护性、可靠性和效率。

使用设计模式可以帮助你避免为管理对话流、集成外部能力或协调多智能体行动等任务「重新发明轮子」。它们提供了一种通用语言和结构,使你的智能体逻辑更清晰,也便于他人(以及未来的你自己)理解和维护。应用专为错误处理或状态管理而设计的模式,能直接帮助你构建更具鲁棒性、更可靠的系统。利用这些成熟的方法可以加速你的开发进程,让你能专注于应用程序的独有之处,而不是智能体行为的基础机制。

本书提炼出 21 个关键设计模式,它们代表了在各种技术画布上构建复杂智能体的基本构建模块和技术。理解并应用这些模式,将极大提升你有效设计和实现智能系统的能力。

本书概览与使用指南

本书《智能体设计模式:构建智能系统的实战指南》旨在成为一本实用且易于上手的资源。其核心重点在于清晰地解释每一种智能体模式,并提供具体、可运行的代码示例来演示其实现。全书用 21 个专章覆盖多种设计模式:从结构化顺序操作(提示链)、外部交互(工具使用)等基础概念,到协同工作(多智能体协作)、自我改进(反思)等进阶主题。

本书《智能体设计模式:构建智能系统的实战指南》旨在成为一本实用且易于上手的资源。其核心重点在于清晰地解释每一种智能体模式,并提供具体、可运行的代码示例来演示其实现。全书用 21 个专章覆盖多种设计模式:从结构化顺序操作(提示链)、外部交互(工具使用)等基础概念,到协同工作(多智能体协作)、自我改进(反思)等进阶主题。

本书按章节组织,每章聚焦一种智能体模式。在每一章中,你都会看到:

  • 详细的模式概述,清晰解释模式及其在智能体设计中的作用。

  • 实际应用和用例部分,说明模式发挥重要作用的实际场景及其带来的好处。

  • 实践代码示例:提供实用的、可运行的代码,演示如何使用主流的智能体开发框架来实现该模式。在这里,你将看到如何在一个技术框架下应用该模式。

  • 核心要点,总结最关键的内容以便快速回顾。

  • 参考资料,提供用于进一步探索的资源,帮助你更深入地学习该模式及相关概念。

虽然各章节的排序是为了循序渐进地构建概念,但你完全可以将本书作为参考手册,直接跳转到那些能解决你在智能体开发项目中遇到的特定挑战的章节。附录部分全面介绍了高级提示技术、在真实环境中应用 AI 智能体的原则,以及主流智能体框架的概览。作为补充,我们还提供了仅在线上发布的实战教程,逐步指导你如何使用 AgentSpace 等特定平台以及在命令行界面中构建智能体。全书自始至终都强调实际应用;我们强烈鼓励你运行代码示例,动手实验,并将其改造应用于在你选择的画布上构建你自己的智能系统。

我常被问到:「AI 日新月异,为何还要写一本可能很快过时的书?」我的动机恰恰相反:正是因为一切变化太快,我们才更需要退后一步,去识别那些正在固化成型的底层原则。诸如 RAG、反思、路由、记忆等模式,正在成为基本的构建模块。本书正是一份邀请,旨在引导大家一同审视这些核心思想,它们为我们未来的构建工作提供了必要的基础。我们正需要这样的时刻,来深入思考这些奠基性的模式。

本书使用的框架介绍

为了给代码示例提供具体的「画布」(亦可参阅附录),本书主要采用三个主流的智能体开发框架。LangChain 及其有状态扩展 LangGraph,提供了一种灵活的方式来将语言模型和其他组件链接在一起,为构建复杂的操作序列和图谱提供了一个鲁棒的画布;Crew AI 提供了一个专为编排多个 AI 智能体、角色和任务而设计的结构化框架,它扮演的画布角色尤其适合协作型智能体系统;谷歌智能体开发者套件(Google ADK) 则提供了用于构建、评估和部署智能体的工具与组件,这是另一块极具价值的画布,通常与谷歌的 AI 基础设施集成。

这些框架代表了智能体开发画布的不同侧面,各有其长处。通过展示跨越这些工具的示例,你将更广泛地理解,无论你为自己的智能体系统选择哪种具体的技术环境,这些模式都可以被应用。这些示例旨在清晰地阐明模式的核心逻辑及其在相应框架画布上的实现,重点突出清晰性和实用性。

在读完本书时,你不仅将理解 21 种关键智能体设计模式的基本理念,还将收获足以落地的实践知识与代码示例,助你在所选「画布」上高效应用这些模式,构建更智能、更强大、更具自主性的系统。让我们开始这段动手实践之旅吧!


是什么让 AI 系统成为「智能体」?

简单来说,AI 智能体是一个能够感知环境并采取行动以实现特定目标的系统。它从标准大语言模型演进而来,被赋予了规划、使用工具以及与周围环境交互的能力。可以把智能体 AI 想象成一个能在工作中不断学习的智能助手。它遵循一个简单的五步循环来完成任务(见图 1)。

  1. 获取任务: 你给它一个目标,比如「帮我安排日程」。

  2. 分析环境: 收集所有必要信息——阅读邮件、查看日历、访问联系人——以了解当前状况。

  3. 思考对策: 它通过考量达成目标的最佳方法来制定一个行动计划。

  4. 采取行动: 通过发送邀请、安排会议、更新日历来执行计划。

  5. 学习并改进: 它观察成功的产出并相应地调整自身。例如,如果一个会议被重新安排,系统会从这一事件中学习,以提升其未来的表现。

AI 智能体的五步循环

图 1:AI 智能体如同一位智能助手,通过经验持续学习。它通过一个简单的五步循环来完成任务。

智能体的普及速度惊人。根据最近的研究,大多数大型 IT 公司正在积极使用这些智能体,其中五分之一的公司是在过去一年内才开始使用的。金融市场也注意到了这一点。到 2024 年底,AI 智能体初创公司已筹集了超过 20 亿美元,市场估值达到 52 亿美元。预计到 2034 年,其市场价值将爆炸式增长至近 2000 亿美元。简而言之,所有迹象都表明 AI 智能体将在我们未来的经济中扮演极为重要的角色。

仅仅两年时间,AI 的范式就发生了巨大转变,从简单的自动化演进为复杂的自主系统(见图 2)。最初,工作流依赖于基本的提示和触发器来通过大语言模型处理数据。随后,检索增强生成(RAG)的出现提升了系统的可靠性,因为它将模型建立在事实信息之上。接着,我们看到了能够使用各种工具的独立智能体的发展。如今,我们正在进入 AI 智能体的时代,在这个时代里,一个由专业化智能体组成的团队协同工作以实现复杂目标,这标志着 AI 协作能力的一次重大飞跃。

AI 范式变迁

图 2:从 LLM 到 RAG,再到智能体 RAG,最终走向 AI 智能体的演进。

本书旨在讨论专业化智能体如何协同工作以实现复杂目标的设计模式,你将在每一章中看到一种协作与交互的范式。

在此之前,让我们先来看几个贯穿智能体复杂度范围的例子(见图 3)。

不同级别的智能体

0 级:核心推理引擎

虽然大语言模型本身不是智能体,但它可以作为基础智能体系统的推理核心。在一个「0 级」配置中,大语言模型在没有工具、记忆或环境交互的情况下运行,仅仅基于其预训练的知识进行响应。它的优势在于利用其海量的训练数据来解释已有的概念,代价是完全缺乏对当前事件的感知。例如,如果关于「2025 年奥斯卡最佳影片奖」得主的信息超出了它的预训练知识范围,它将无法给出答案。

1 级:连接外部的问题解决者

在这个级别,大语言模型通过连接并使用外部工具,摇身成为功能性智能体。它解决问题的能力不再局限于其预训练的知识。相反,它能够执行一系列动作,从互联网(通过搜索)或数据库(通过检索增强生成,即 RAG)等来源收集和处理信息。更多详细信息,请参阅第 14 章。

例如,为了寻找新的电视节目,智能体识别出需要最新信息,于是使用搜索工具来查找,然后综合处理结果。至关重要的一点是,它还可以使用专业工具以获得更高精度,例如调用金融 API 来获取苹果公司的实时股价。这种跨多个步骤与外部世界交互的能力,正是 1 级智能体的核心。

2 级:战略性问题解决者

在这个级别,智能体的能力显著扩展,涵盖战略规划、主动协助和自我提升,而提示工程和上下文工程是其核心赋能技能。

首先,智能体超越了单一工具的使用,通过战略性问题解决来处理复杂、多部分的问题。在执行一系列动作时,它会主动进行上下文工程(Context Engineering):即为每一步战略性地选择、打包和管理最相关信息的过程。例如,要在两个地点之间找一家咖啡店,它首先会使用地图工具。然后,它会对输出结果进行工程化处理,筛选出一个简短、集中的上下文——也许只是一串街道名称列表——再输入给本地搜索工具,以避免认知过载,确保第二步既高效又准确。要从 AI 获得最高精度,就必须给它一个简短、专注且有力的上下文。上下文工程正是实现这一目标的学科,它通过战略性地从所有可用来源中选择、打包和管理最关键的信息来做到这一点。它有效地管理模型的有限注意力以防止过载,确保在任何给定任务上都能实现高质量、高效率的表现。更多详细信息,请参阅附录A。

这个级别带来主动且持续的运行方式。一个与你的邮箱关联的旅行助手就展示了这一点:它会从一封冗长的航班确认邮件中进行上下文工程,只选择关键细节(航班号、日期、地点),然后打包这些信息用于后续调用你的日历和天气 API。

在软件工程等专业领域,智能体通过应用这门学科来管理整个工作流。当分配给它一个错误报告时,它会阅读报告并访问代码库,然后战略性地将这些海量信息源工程化处理成一个强有力、高度集中的上下文,使其能够高效地编写、测试并提交正确的代码补丁。

最后,智能体通过优化自身的上下文工程流程来实现自我提升。当它就「某个提示本可以如何改进」而征求反馈时,它实际上是在学习如何更好地筛选其初始输入。这使其能够自动改进为未来任务打包信息的方式,从而创建一个强大的自动化反馈循环,随着时间的推移不断提高其准确性和效率。更多详细信息,请参阅第 17 章。

智能体级别

图 3:展示不同复杂度智能体的实例。

3 级:协作型多智能体系统的兴起

在 3 级,我们看到了 AI 发展的一次重大范式转变:不再追求单一、全能的超级智能体,而是转向发展复杂的、协作式的多智能体系统。本质上,这种方法认识到,复杂的挑战通常不是由一个通才,而是由一个协同工作的专家团队来解决的。这个模型直接映射了人类组织的结构,其中不同部门被赋予特定角色,并协作处理多方面的目标。这种系统的集体力量在于劳动分工以及通过协调努力产生的协同效应。更多详细信息,请参阅第 7 章。

为了将这个概念具体化,可以想象一下发布一款新产品的复杂工作流。并非由一个智能体尝试处理所有方面,而是一个「项目经理」智能体可以作为中心协调者。这个经理会通过将任务委派给其他专业化智能体来统筹整个过程:一个「市场研究」智能体负责收集消费者数据,一个「产品设计」智能体负责开发概念,以及一个「市场营销」智能地负责制作宣传材料。它们成功的关键在于彼此之间无缝的沟通和信息共享,确保所有个体努力都统一指向集体目标。

虽然这种基于团队的自主自动化愿景已在开发中,但认识到当前的障碍也很重要。这类多智能体系统的有效性目前受限于它们所使用模型的推理能力。此外,它们真正相互学习并作为一个有凝聚力的整体来改进的能力仍处于早期阶段。克服这些技术瓶颈是关键的一步,而一旦做到这一点,将释放这一级别的深远潜力:实现从头到尾自动化整个业务工作流的能力。

智能体的未来:五大假设

AI 智能体开发正在软件自动化、科学研究和客户服务等领域以前所未有的速度推进。虽然当前的系统令人印象深刻,但它们仅仅是开始。下一波创新浪潮可能会聚焦于让智能体更可靠、更具协作性,并更深度融入我们的生活。以下是关于未来的五个主要假说(见图 4)。

假设 1:通用智能体的崛起

第一个假设是,AI 智能体将从狭隘的专家演变为真正的通用型选手,能够高可靠性地管理复杂、模糊和长期的目标。例如,你可以给智能体一个简单的提示,如「为我们公司 30 名员工筹划下个季度在里斯本的异地团建」。随后,这个智能体将管理整个项目长达数周,处理从预算审批、航班谈判到场地选择,再到根据员工反馈创建详细行程的所有事宜,并同时提供定期更新。实现这种级别的自主性将需要在 AI 推理、记忆与近乎完美可靠性方面取得根本性突破。一种替代性但并非相互排斥的方法是小型语言模型(SLM)的兴起。这种「乐高式」的概念涉及用小型的、专业化的专家智能体来组合成系统,而不是扩展单一的巨型模型。这种方法有望使系统更便宜、调试更快、部署更容易。最终,大型通用模型的发展和小型专业模型的组合都是未来可行的路径,它们甚至可能相得益彰。

假设 2:深度个性化与主动发现目标

第二个假设认为智能体将成为深度个性化且主动的合作伙伴。我们正在见证一类新型智能体的诞生:主动合作伙伴。通过学习你独特的模式与目标,这些系统开始从仅仅遵循命令,转向预测你的需求。当 AI 系统超越简单地响应聊天或指令时,它们便作为智能体在运作。它们代表用户发起并执行任务,在过程中积极协作。这超越了简单的任务执行,进入主动目标发现的领域。

例如,如果你正在探索可持续能源,智能体可能会识别你的潜在目标,并主动支持它,比如推荐相关课程或总结研究报告。虽然这些系统仍在发展中,但它们的轨迹很清楚。它们将变得越来越主动,并在高度确信该行动会有帮助时,学会代表你采取行动。最终,智能体将成为不可或缺的盟友,帮助你发现并实现那些你尚未完全清晰表达的抱负。

智能体未来假设

图 4:关于智能体未来的五个假设

假设 3:具身化与物理世界交互

这个假说预见智能体将挣脱纯粹的数字束缚,在物理世界中运作。通过将 AI 智能体与机器人技术相结合,我们将看到具身智能体(Embodied Agents)的兴起。你或许不再是仅仅预订一个水电工,而是直接让你的家庭智能体修理一个漏水的水龙头。智能体将使用其视觉传感器来感知问题,访问一个管道知识库来制定计划,然后精确地控制其机械臂来执行修复。这将是里程碑式的一步,弥合了数字智能与物理行动之间的鸿沟,并将彻底改变从制造业、物流到老年护理和家庭维护的方方面面。

假设 4:智能体驱动的经济

第四个假设是,高度自主的智能体将成为经济中的积极参与者,创造新的市场和商业模式。我们可能会看到智能体作为独立的经济实体,其任务是最大化一个特定结果,例如利润。企业家可以启动一个智能体来运营整个电子商务业务。该智能体将通过分析社交媒体来识别热门产品,生成营销文案和视觉材料,通过与其他自动化系统交互来管理供应链物流,并根据实时需求动态调整定价。这一转变将创造一个全新的、超高效率的「智能体经济」,其运行速度和规模是人类无法直接管理的。

假设 5:目标驱动的、可演化的多智能体系统

该假说断言,将会出现一种并非基于显式编程,而是基于一个声明性目标来运作的智能系统。用户只需陈述期望的结果,系统便能自主地找出如何实现它。这标志着向可演化多智能体系统的根本性转变,这种系统能够在个体和集体层面实现真正的自我提升。

这个系统将是一个动态实体,而非单个智能体。它将有能力分析自身表现并修改其多智能体工作团队的拓扑结构,根据需要创建、复制或移除智能体,以组成最适合当前任务的团队。这种演化发生在多个层面:

  • 架构层面的修改: 在最深层次,单个智能体可以重写自身的源代码并重构其内部结构以提高效率,正如最初的假说所设想的那样。

  • 指令层面的修改: 在更高层次,系统持续进行自动化的提示工程和上下文工程。它不断优化给予每个智能体的指令和信息,确保它们在没有任何人工干预的情况下以最佳指导进行运作。

例如,企业家只需声明一个意图:「启动一个成功的手工咖啡电商业务」。系统无需进一步编程即刻行动:它可能先生成「市场研究」与「品牌」两个智能体;随后基于初步结论,移除品牌智能体,并衍生出三个更细分的角色:「Logo 设计」「网店平台」「供应链」。系统会持续调校它们的内部提示以优化表现。如果网店智能体成为瓶颈,系统可能会将其复制成三个并行的智能体来处理网站的不同部分,从而动态地重构自身结构,以更好地实现声明的目标。

总结

本质上,AI 智能体代表了从传统模型的一次重大飞跃,它作为一个自主系统,能够感知、规划和行动以达成特定目标。这项技术正从使用单一工具的智能体,演进为处理多方面目标的复杂、协作式多智能体系统。未来的假说预测了通用型、个性化、乃至物理具身化的智能体的出现,它们将成为经济活动的积极参与者。这一持续的发展标志着一次重大的范式转变,即向能够自动化整个工作流并从根本上重新定义我们与技术关系的、自我提升的、目标驱动的系统迈进。

参考文献

  1. Cloudera, Inc.(2025 年 4 月),96% 的企业正在增加对 AI 智能体的使用。https://www.cloudera.com/about/news-and-blogs/press-releases/2025-04-16-96-percent-of-enterprises-are-expanding-use-of-ai-agents-according-to-latest-data-from-cloudera.html

  2. 自主生成式 AI 智能体:https://www.deloitte.com/us/en/insights/industry/technology/technology-media-and-telecom-predictions/2025/autonomous-generative-ai-agents-still-under-development.html

  3. Market.us. 全球智能体 AI 市场规模、趋势和 2025-2034 年预测。https://market.us/report/agentic-ai-market/