Agent全景图:分类、流程与主流产品
AI Agent 是当前 AI 应用落地的核心范式之一。本文系统梳理了 Agent 的能力分类体系、完整执行流程、多轮 LLM 交互机制,以及截至 2025 年的主流产品格局。无论是工程师选型、产品经理规划路线,还是希望深入理解 Agent 底层逻辑的技术读者,本文都提供了完整的参考框架。
一、什么是 AI Agent?
从本质上说,AI Agent 是一种能够「感知环境 → 自主决策 → 执行行动 → 观察结果」并持续循环的智能系统。与传统的一问一答式 LLM 使用不同,Agent 具备三个核心特征:
- 自主性(Autonomy):无需人类每步干预,能根据目标自行规划并采取行动。
- 工具使用(Tool Use):可调用外部工具,如搜索引擎、代码执行器、数据库、API 等。
- 持久记忆(Memory):维护跨轮次的上下文,积累知识,而不是每次从零开始。
Agent = LLM + 记忆 + 工具 + 执行循环
二、AI Agent 分类体系
AI Agent 的分类可以从两个维度来理解:经典的能力架构分类,以及更贴近工程实践的自主程度与交互方式分类。
2.1 视角一:按能力架构分类(学术经典)
这是由 Russell & Norvig 在《人工智能:现代方法》中奠定的框架,描述了 Agent 从简单到复杂的演进层次:
| 类型 | 核心能力 | 局限性 | 典型代表 |
|---|---|---|---|
| 简单反射型 Simple Reflex |
条件→动作规则 无记忆,无规划 |
无法处理未见过的情况 | 早期规则型聊天机器人 邮件自动回复系统 |
| 模型型 Model-Based |
维护内部世界状态 能记住上下文 |
无目标导向,被动响应 | 当前基础对话 AI ChatGPT 对话模式 |
| 目标型 Goal-Based |
任务分解 多步规划达成目标 |
不衡量方案优劣 | 早期 BabyAGI LangChain ReAct Agent |
| 效用型 Utility-Based |
多方案评分 选择最优行动 |
需定义准确效用函数 | 金融交易 Agent 推荐系统 Agent |
| 学习型 Learning Agent |
从经验自我改进 持续优化决策 |
训练成本高,收敛慢 | Devin(代码调试) AlphaCode |
2.2 视角二:按交互方式 & 自主程度分类(工业主流)
🔵 类型一:对话增强型(Chat + Agentic Tools)
本质是在对话框中加入工具调用能力,用户保持一问一答节奏。自主程度 L1~L3,是目前用户基数最大的 Agent 形态。
| 产品 | 核心特点 | 工具能力 |
|---|---|---|
| ChatGPT (OpenAI) | 最广泛用户基础,插件生态丰富 | 搜索、代码执行、图像生成、浏览 |
| Claude (Anthropic) | 超长上下文、强推理、工具调用 | 文件分析、搜索、代码执行 |
| Gemini (Google) | 与 Google 搜索深度集成,多模态 | 实时搜索、图像理解、文档分析 |
| Perplexity Pro | 搜索增强型,实时引用来源 | 联网搜索、学术库、多源整合 |
| Microsoft Copilot | 深度集成 Office 365 套件 | Word/Excel/PPT 操作、邮件、日历 |
🟠 类型二:通用自主型(General-Purpose Autonomous)
接受一个高层目标后自行规划执行,人类干预较少。自主程度 L3~L5,是当前技术边界探索最活跃的方向。
| 产品 | 核心特点 | 适用场景 |
|---|---|---|
| Manus AI | 跨应用自主执行,连接浏览器、代码编辑器 | 复杂信息汇总、自动化工作流 |
| OpenAI Deep Research | 长程推理 + 多轮联网搜索,自动输出报告 | 学术研究、竞品分析、市场调研 |
| Claude Code | 终端接口,不限于写代码,可执行系统级任务 | 代码库分析、文件操作、自动化脚本 |
| AutoGPT | 2023 年先驱,定义自主 Agent 概念范式 | 实验性任务,开源社区探索 |
| MetaGPT | 多角色协作,模拟软件开发团队 | 软件项目从需求到代码全流程 |
🟢 类型三:计算机控制型(Browser / Computer Use)
直接操控浏览器或操作系统 UI,像数字人类一样使用电脑。自主程度 L4~L5,行动边界最广也最具争议。
| 产品 | 控制范围 | 特色 |
|---|---|---|
| OpenAI Operator | 专属浏览器,网页操作 | 订餐、购票、填表单,面向普通用户 |
| Claude Computer Use | 完整桌面(鼠标+键盘) | 跨应用协调,Anthropic API 提供 |
| Google Project Mariner | Chrome 浏览器 | Gemini 驱动,Google 生态深度集成 |
| Devin (Cognition) | 完整虚拟机(IDE+浏览器+终端) | 软件工程专用,可自主完成完整项目 |
| Browser Use(开源) | 多 LLM 后端支持 | Python 库,开发者自托管首选 |
🟣 类型四:多智能体协作型(Multi-Agent)
多个专业 Agent 组成协作团队,通过相互通信分工完成大型复杂任务。
| 框架 / 产品 | 协作模式 | 适用场景 |
|---|---|---|
| AutoGen(微软) | Agent 互相对话、辩论、审查 | 需要验证和反驳的推理任务 |
| CrewAI | 定义角色分工(研究员+作家+审校) | 内容生产、市场分析、报告生成 |
| LangGraph | 状态机驱动的 Agent 工作流 | 生产级复杂工作流,需精确控制 |
| Amazon Bedrock Agents | 企业级托管,内置安全护栏 | 企业内部自动化,合规要求高 |
| OpenClaw(前Clawdbot) | 本地自托管,消息平台驱动 | 个人 24h 助理,隐私优先场景 |
自主程度越高,能力越强,但风险和不可预测性也越高。
三、AI Agent 完整执行流程
理解 Agent 的执行流程,是理解所有 Agent 产品差异的关键。几乎所有主流框架都在这套元流程上做裁剪或强化,而不是推翻重建。
3.1 执行流程图
3.2 各主流框架实现方式对比
| 框架 / 模式 | 规划方式 | 循环控制 | 特色 |
|---|---|---|---|
| ReAct(LangChain) | 每步交替 Reasoning + Acting | 步骤级循环 | 最接近通用流程,透明度高 |
| Plan-and-Execute | 先完整规划再逐步执行 | 计划与执行分离 | 规划稳定,适合结构清晰任务 |
| AutoGPT / BabyAGI | 先生成完整 Task List | 外层任务列表循环 | 高度自主,容易越跑越偏 |
| Reflection Agent | 执行后自我评估并修正 | 结果驱动反思循环 | 质量最高,但调用次数多 |
| Multi-Agent | 多 Agent 分工规划 | Agent 间消息循环 | 适合复杂大任务,可并行 |
感知 → 检索 → 规划 → 行动 → 观察 → 判断(完成?)→ 输出 / 继续这个 OODA 循环(观察-判断-决策-行动)是所有 Agent 的共同本质。
四、多轮 LLM 交互:一个任务需要几次调用?
这是很多开发者初次接触 Agent 时最大的认知盲区:一个用户输入,可能会触发大量后台 LLM 调用。每一轮「推理→工具→观察→再推理」就是一次完整的 LLM 交互。
| 任务复杂度 | 典型场景 | LLM 调用次数 |
|---|---|---|
| 极简 | 直接回答,无需工具 | 1 次 |
| 简单 | 单次工具调用(如搜索一次) | 2~3 次 |
| 中等 | 多步骤任务(查询→计算→汇总) | 4~8 次 |
| 复杂 | 多工具、多阶段综合任务 | 10~20 次 |
| 自主型任务 | AutoGPT 类长程任务 | 无上限 ♾️ |
4.1 多轮交互带来的工程挑战
挑战一:Context 窗口膨胀
每轮都要将上轮推理和工具返回结果追加进 Prompt,Context 随轮次线性增长。到第 10 轮时,一个任务可能已消耗数万 Token。主流解法:
- 记忆压缩(Memory Summarization):定期将历史轮次总结成摘要,替换原始对话。
- 记忆分层(Hierarchical Memory):热记忆保留近期上下文,冷记忆归档到向量数据库按需检索。
- 滑动窗口(Sliding Window):只保留最近 N 轮,丢弃过早的历史。
挑战二:错误累积(Error Propagation)
第 3 轮的推理偏差会在第 5 轮被放大,第 8 轮可能完全跑偏。主流解法:
- 自我反思(Self-Reflection):每步执行后显式让 LLM 评估是否符合目标。
- Critic Agent:引入独立评审 Agent 对主 Agent 的行动进行纠偏。
- 最大步数限制(max_iterations):设置硬上限防止无限循环,保障系统可控性。
max_iterations(建议 10~20)、记忆压缩策略,以及 Fallback 机制,否则容易出现超时、超额计费、结果漂移等问题。
五、2025 年主流 Agent 产品版图
| 类型 | 代表产品 | 开源 | 部署方式 | 核心优势 |
|---|---|---|---|---|
| 🔵 对话增强型 | ChatGPT / Claude / Gemini | ❌ | 云端 SaaS | 用户体验最成熟,生态最完整 |
| 🟠 通用自主型 | Manus AI / Deep Research | ❌ | 云端 SaaS | 任务自主程度高,少需人工干预 |
| 🟠 通用自主型 | Claude Code / AutoGPT | 部分 ✅ | 本地/云端 | 开发者友好,可定制性强 |
| 🟢 计算机控制型 | Operator / Computer Use | ❌ | 云端 API | 最广行动边界,可操控任意 UI |
| 🟢 计算机控制型 | Devin (Cognition) | ❌ | 云端 SaaS | 软件工程专用,完整虚拟环境 |
| 🟣 多 Agent 协作 | AutoGen / CrewAI | ✅ | 本地部署 | 灵活组合,适合复杂工作流 |
| 🏠 本地自托管型 | OpenClaw(前Clawdbot) | ✅ | 本地自托管 | 数据隐私,24h 在线个人助理 |
值得关注的 2025 年新趋势:
- 底层模型趋同:几乎所有主流 Agent 产品都依赖 GPT-4、Claude、Gemini 系列,产品差异越来越体现在工具链整合和架构设计上。
- 标准协议出现:Anthropic 发布 MCP(Model Context Protocol),尝试标准化 Agent 与外部工具的接口。
- 本地化 Agent 兴起:OpenClaw(前身 Clawdbot)等开源本地 Agent 走红,显示用户对数据隐私的强需求。
- Multi-Agent 走向生产:AutoGen、LangGraph 等框架逐渐从实验走向生产部署。
六、总结
AI Agent 经历了从「规则→记忆→目标→学习」的能力演进,又在工程实践中分化出对话增强、通用自主、计算机控制、多智能体协作四大产品类型。每种类型在自主程度、风险控制、用户体验上各有取舍。
在执行层面,Agent 的本质是一个持续循环的「感知-推理-行动-观察」系统,一个复杂任务可能需要数十次 LLM 调用。理解这一点,是设计可靠 Agent 系统的前提。
展望未来,随着 LLM 能力提升、工具协议标准化(如 MCP)和本地模型成熟,AI Agent 将从开发者工具快速向普通用户的日常助理演进。