智能体技术应用及展望
中国移动研究院 业务研究所
2024 年 4 月
摘要
智能体(AI Agent)是一种能够自主行动、感知环境、
做出决策并与环境交互的计算机系统或实体,通常依赖大
型语言模型作为其核心决策和处理单元,具备独立思考、
调用工具去逐步完成给定目标的能力。作为未来大模型最
主流的使用方式,智能体备受业界关注。2024 年智能体技术
[1]被纳入《国家人工智能产业综合标准化体系建设指南
(征求意见稿)》,在标准引领下未来智能体技术将高质
量发展并助推大模型加速赋能千行百业。
本文通过阐述智能体技术、应用现状及产品演进,分
析了智能体技术未来发展方向和面临的挑战。
一、 智能体技术
(一)智能体工作原理[2]
大脑(Brain):大脑主要由一个大型语言模型 LLM 组成,
不仅存储知识和记忆,还承担着信息处理和决策等功能,
并可以呈现推理和规划的过程,能很好地应对未知任务。
感知(Perception):感知模块的核心目的是将智能体
的感知空间从纯文字领域扩展到包括文字、听觉和视觉模
式在内的多模态领域。
行动(Action):在智能体的构建过程中,行动模块接
收大脑模块发送的行动序列,并执行与环境互动的行动。
(二)智能体技术特点[3]
大模型通常通过 Prompt(提示)与用户进行交互,输
出效果受限于用户提问的清晰度。信息处理方面,仅处理
静态或流式数据输入,不涉及直接的环境交互,不能自主
地采取行动。技术应用方面,行业知识缺乏、易出现幻觉
提示词工程学习门槛高成为大模型破圈的阻碍。而基于大
模型的智能体,其设计目标是实现对环境的有效互动,通
过感知模块收集环境信息,并通过行动模块来改变环境状
态,整合了感知、决策、行动等多个环节,因而智能体在
自主能力、决策能力、协作交互等方面展现出优势,弥补
了大模型的不足,成为人工智能界的“行动派”。
二、 智能体技术应用
根据面向的对象、流程不同,智能体主要应用在三种
场景[4]:
(一)单智能体[5]应用
一个特定的环境中,仅有一个智能体进行感知、学习
和行动,需要独立地与环境进行交互,并根据环境的反馈
来优化其行为策略,以实现预设的目标。可应用在交互性
质场景,如游戏 AI(如围棋、电子游戏等)、自动驾驶汽
车、机器人控制等。单智能体系统的复杂性相对较低,某
些任务中更容易实现和部署。
(二)多智能体系统[6]
由多个智能体(软件程序、机器人或其他具有自治性
的实体)组成的复杂的分布式系统,每个智能体都具有自
己的感知、决策和行动能力,并且可以与其他智能体进行
通信、信息共享、交互和协作,以实现共同的目标或任务
通常后端设定不同角色的智能体,前端通过对话链协同工
作,能够完成单个智能体难以完成或无法完成的任务,具
有更高的灵活性、可扩展性和鲁棒性。可应用在分布式控
制、智能交通、智能制造、自然语言处理等领域。
(三)智能体平台[4]
构建智能体系统的集成化平台,用户在平台上定义并
部署各类智能体,平台通过策略性流程,优化智能体组合
以适应特定任务需求,各智能体可扮演不同专业角色,在
任务协商和角色分配后,协同执行任务并完成结果整合。
适用于智能体开发、企业定制化解决方案场景。
三、 智能体产品演进
从时间维度智能体主流产品的演进大致可划分为三个
阶段:
(一)构建智能体框架阶段[8]
内 2023 年 3 月AutoGPT 框架项目发布,包括需求下发、自
主运行、结果输出三个核心模块。功能上主要是通过
Prompt 向 ChatGPT 下发任务,ChatGPT 通过大模型对语义内容
理解,输出详细的解决方案,经过逻辑判断选择优先执 行的
步骤,生成可执行的操作或指令,并调用外部资源或 工具完
成指令操作。AutoGPT 框架把大模型的自然语言理解、内容生
成、逻辑推理等核心能力外推到具体场景,辅以感 知与行
动技术,有端到端解决问题的潜力,被认为是大模
型落地的重要模式。
(二)GPTs 智能体雏形阶段[7]
2023 年 11 月 OpenAI 推出 Assistant API , 后续发布
GPTs 服务,允许用户构建个人自定义 GPT 助手,无需编码,
用户通过上传个人数据以及自定义训练,能实现垂类模型
的快速搭建,大幅度降低 AI 应用的创作门槛,进一步推高
智能体的热潮。
(三)个人智能体孵化阶段[9]
2023 年 12 月联想公布了个人智能体“小乐同学”的进展。
个人智能体,基于内嵌于终端的本地大模型打造,精准理解
用户意图,并将意图转换为相应的任务组合,分解任务并
识别任务完成的路径,通过查询本地知识库、调用设备
API 以及合适的模型或应用来执行相应的任务,并将相应的
结果返回给智能体,智能体完成整合后反馈给用户。与云
端模型能力相比,整个过程完全不用上云,不侵犯用户
个人隐私,并对硬件有很强的控制能力。
四、 发展方向和面临的挑战
在不久的将来,智能体将成为 AI OS 系统的最小工作单
元,嵌入自主智能体的软件极有可能改变现有的使用方式
从用户适应软件变成软件适应用户习惯,真正成为个人助
理。进而系统级别的智能体有望直接操作 App 或者子智能体,
在 PC、手机、自动驾驶领域预计有广泛的应用场景[10]。尽 管大
语言模型智能体已经取得了重要的进展,但是在实际 应用中仍然面临安全、伦理、计算
资源消耗、复杂工具使 用、多智能体交互机制、模型适配方法、面向真实世界的 智能体
模拟等一系列技术挑战[11]。
[参考文献]
[1] 《国家人工智能产业综合标准化体系建设指南(征求意见
稿)》, 工信部,2024
[2] 《2023 年人工智能体(AI Agent)开发与应用全面调研:概
念、原理、开发、应用、挑战、展望》,AI 前沿,2023
[3] 《什么是 Agent 智能体?Agent 智能体和大模型有什么区
别?|商派》,商派,2024,
archives/
[4] 《成果|大模型驱动的自主智能体与群体智能》,AIGC 最前
线,2024
[5] 《单智能体(Single Agent)是指什么》,行业百科,2024 [6]
《多智能体系统是指什么》,行业百科,2024
7 《AI Agent 发展现状、行业结构与趋势分析》,天翼智
库,2024
8 《AutoGPT:自动化 GPT 原理及应用实践》,学习猿地,2023
[9]《AI 时代,为什么「智能体」将成为第一入口》,极客公园,
2024
[10]《2023 年度十大前沿科技趋势报告》,量子位智库,2023 [11]
《大语言模型》,AIBOX,2024