Agent, LLM

2026-01-20

Agent全景图：分类、流程与主流产品

Catalogue

一、什么是 AI Agent？
二、AI Agent 分类体系
1. 2.1 视角一：按能力架构分类（学术经典）
2. 2.2 视角二：按交互方式 & 自主程度分类（工业主流）
三、AI Agent 完整执行流程
1. 3.1 执行流程图
2. 3.2 各主流框架实现方式对比
四、多轮 LLM 交互：一个任务需要几次调用？
1. 4.1 多轮交互带来的工程挑战
  1. 挑战一：Context 窗口膨胀
  2. 挑战二：错误累积（Error Propagation）
五、2025 年主流 Agent 产品版图
六、总结

📋 摘要
AI Agent 是当前 AI 应用落地的核心范式之一。本文系统梳理了 Agent 的能力分类体系、完整执行流程、多轮 LLM 交互机制，以及截至 2025 年的主流产品格局。无论是工程师选型、产品经理规划路线，还是希望深入理解 Agent 底层逻辑的技术读者，本文都提供了完整的参考框架。

一、什么是 AI Agent？

从本质上说，AI Agent 是一种能够「感知环境 → 自主决策 → 执行行动 → 观察结果」并持续循环的智能系统。与传统的一问一答式 LLM 使用不同，Agent 具备三个核心特征：

自主性（Autonomy）：无需人类每步干预，能根据目标自行规划并采取行动。
工具使用（Tool Use）：可调用外部工具，如搜索引擎、代码执行器、数据库、API 等。
持久记忆（Memory）：维护跨轮次的上下文，积累知识，而不是每次从零开始。

💡 核心公式：LLM 是 Agent 的大脑，但 Agent ≠ LLM。
Agent = LLM + 记忆 + 工具 + 执行循环

二、AI Agent 分类体系

AI Agent 的分类可以从两个维度来理解：经典的能力架构分类，以及更贴近工程实践的自主程度与交互方式分类。

2.1 视角一：按能力架构分类（学术经典）

这是由 Russell & Norvig 在《人工智能：现代方法》中奠定的框架，描述了 Agent 从简单到复杂的演进层次：

类型	核心能力	局限性	典型代表
简单反射型 Simple Reflex	条件→动作规则无记忆，无规划	无法处理未见过的情况	早期规则型聊天机器人邮件自动回复系统
模型型 Model-Based	维护内部世界状态能记住上下文	无目标导向，被动响应	当前基础对话 AI ChatGPT 对话模式
目标型 Goal-Based	任务分解多步规划达成目标	不衡量方案优劣	早期 BabyAGI LangChain ReAct Agent
效用型 Utility-Based	多方案评分选择最优行动	需定义准确效用函数	金融交易 Agent 推荐系统 Agent
学习型 Learning Agent	从经验自我改进持续优化决策	训练成本高，收敛慢	Devin（代码调试） AlphaCode

2.2 视角二：按交互方式 & 自主程度分类（工业主流）

🔵 类型一：对话增强型（Chat + Agentic Tools）

本质是在对话框中加入工具调用能力，用户保持一问一答节奏。自主程度 L1～L3，是目前用户基数最大的 Agent 形态。

产品	核心特点	工具能力
ChatGPT (OpenAI)	最广泛用户基础，插件生态丰富	搜索、代码执行、图像生成、浏览
Claude (Anthropic)	超长上下文、强推理、工具调用	文件分析、搜索、代码执行
Gemini (Google)	与 Google 搜索深度集成，多模态	实时搜索、图像理解、文档分析
Perplexity Pro	搜索增强型，实时引用来源	联网搜索、学术库、多源整合
Microsoft Copilot	深度集成 Office 365 套件	Word/Excel/PPT 操作、邮件、日历

🟠 类型二：通用自主型（General-Purpose Autonomous）

接受一个高层目标后自行规划执行，人类干预较少。自主程度 L3～L5，是当前技术边界探索最活跃的方向。

产品	核心特点	适用场景
Manus AI	跨应用自主执行，连接浏览器、代码编辑器	复杂信息汇总、自动化工作流
OpenAI Deep Research	长程推理 + 多轮联网搜索，自动输出报告	学术研究、竞品分析、市场调研
Claude Code	终端接口，不限于写代码，可执行系统级任务	代码库分析、文件操作、自动化脚本
AutoGPT	2023 年先驱，定义自主 Agent 概念范式	实验性任务，开源社区探索
MetaGPT	多角色协作，模拟软件开发团队	软件项目从需求到代码全流程

🟢 类型三：计算机控制型（Browser / Computer Use）

直接操控浏览器或操作系统 UI，像数字人类一样使用电脑。自主程度 L4～L5，行动边界最广也最具争议。

产品	控制范围	特色
OpenAI Operator	专属浏览器，网页操作	订餐、购票、填表单，面向普通用户
Claude Computer Use	完整桌面（鼠标+键盘）	跨应用协调，Anthropic API 提供
Google Project Mariner	Chrome 浏览器	Gemini 驱动，Google 生态深度集成
Devin (Cognition)	完整虚拟机（IDE+浏览器+终端）	软件工程专用，可自主完成完整项目
Browser Use（开源）	多 LLM 后端支持	Python 库，开发者自托管首选

🟣 类型四：多智能体协作型（Multi-Agent）

多个专业 Agent 组成协作团队，通过相互通信分工完成大型复杂任务。

框架 / 产品	协作模式	适用场景
AutoGen（微软）	Agent 互相对话、辩论、审查	需要验证和反驳的推理任务
CrewAI	定义角色分工（研究员+作家+审校）	内容生产、市场分析、报告生成
LangGraph	状态机驱动的 Agent 工作流	生产级复杂工作流，需精确控制
Amazon Bedrock Agents	企业级托管，内置安全护栏	企业内部自动化，合规要求高
OpenClaw（前Clawdbot）	本地自托管，消息平台驱动	个人 24h 助理，隐私优先场景

📊 自主程度对比：

对话增强型 L1-3 → 通用自主型 L3-5 → 计算机控制型 L4-5

自主程度越高，能力越强，但风险和不可预测性也越高。

三、AI Agent 完整执行流程

理解 Agent 的执行流程，是理解所有 Agent 产品差异的关键。几乎所有主流框架都在这套元流程上做裁剪或强化，而不是推翻重建。

3.1 执行流程图

3.2 各主流框架实现方式对比

框架 / 模式	规划方式	循环控制	特色
ReAct（LangChain）	每步交替 Reasoning + Acting	步骤级循环	最接近通用流程，透明度高
Plan-and-Execute	先完整规划再逐步执行	计划与执行分离	规划稳定，适合结构清晰任务
AutoGPT / BabyAGI	先生成完整 Task List	外层任务列表循环	高度自主，容易越跑越偏
Reflection Agent	执行后自我评估并修正	结果驱动反思循环	质量最高，但调用次数多
Multi-Agent	多 Agent 分工规划	Agent 间消息循环	适合复杂大任务，可并行

🔑 核心循环：感知 → 检索 → 规划 → 行动 → 观察 → 判断（完成？）→ 输出 / 继续
这个 OODA 循环（观察-判断-决策-行动）是所有 Agent 的共同本质。

四、多轮 LLM 交互：一个任务需要几次调用？

这是很多开发者初次接触 Agent 时最大的认知盲区：一个用户输入，可能会触发大量后台 LLM 调用。每一轮「推理→工具→观察→再推理」就是一次完整的 LLM 交互。

任务复杂度	典型场景	LLM 调用次数
极简	直接回答，无需工具	1 次
简单	单次工具调用（如搜索一次）	2～3 次
中等	多步骤任务（查询→计算→汇总）	4～8 次
复杂	多工具、多阶段综合任务	10～20 次
自主型任务	AutoGPT 类长程任务	无上限 ♾️

4.1 多轮交互带来的工程挑战

挑战一：Context 窗口膨胀

每轮都要将上轮推理和工具返回结果追加进 Prompt，Context 随轮次线性增长。到第 10 轮时，一个任务可能已消耗数万 Token。主流解法：

记忆压缩（Memory Summarization）：定期将历史轮次总结成摘要，替换原始对话。
记忆分层（Hierarchical Memory）：热记忆保留近期上下文，冷记忆归档到向量数据库按需检索。
滑动窗口（Sliding Window）：只保留最近 N 轮，丢弃过早的历史。

挑战二：错误累积（Error Propagation）

第 3 轮的推理偏差会在第 5 轮被放大，第 8 轮可能完全跑偏。主流解法：

自我反思（Self-Reflection）：每步执行后显式让 LLM 评估是否符合目标。
Critic Agent：引入独立评审 Agent 对主 Agent 的行动进行纠偏。
最大步数限制（max_iterations）：设置硬上限防止无限循环，保障系统可控性。

⚠️ 工程建议：生产环境部署 Agent 时，务必设置 max_iterations（建议 10～20）、记忆压缩策略，以及 Fallback 机制，否则容易出现超时、超额计费、结果漂移等问题。

五、2025 年主流 Agent 产品版图

类型	代表产品	开源	部署方式	核心优势
🔵 对话增强型	ChatGPT / Claude / Gemini	❌	云端 SaaS	用户体验最成熟，生态最完整
🟠 通用自主型	Manus AI / Deep Research	❌	云端 SaaS	任务自主程度高，少需人工干预
🟠 通用自主型	Claude Code / AutoGPT	部分 ✅	本地/云端	开发者友好，可定制性强
🟢 计算机控制型	Operator / Computer Use	❌	云端 API	最广行动边界，可操控任意 UI
🟢 计算机控制型	Devin (Cognition)	❌	云端 SaaS	软件工程专用，完整虚拟环境
🟣 多 Agent 协作	AutoGen / CrewAI	✅	本地部署	灵活组合，适合复杂工作流
🏠 本地自托管型	OpenClaw（前Clawdbot）	✅	本地自托管	数据隐私，24h 在线个人助理

值得关注的 2025 年新趋势：

底层模型趋同：几乎所有主流 Agent 产品都依赖 GPT-4、Claude、Gemini 系列，产品差异越来越体现在工具链整合和架构设计上。
标准协议出现：Anthropic 发布 MCP（Model Context Protocol），尝试标准化 Agent 与外部工具的接口。
本地化 Agent 兴起：OpenClaw（前身 Clawdbot）等开源本地 Agent 走红，显示用户对数据隐私的强需求。
Multi-Agent 走向生产：AutoGen、LangGraph 等框架逐渐从实验走向生产部署。

六、总结

AI Agent 经历了从「规则→记忆→目标→学习」的能力演进，又在工程实践中分化出对话增强、通用自主、计算机控制、多智能体协作四大产品类型。每种类型在自主程度、风险控制、用户体验上各有取舍。

在执行层面，Agent 的本质是一个持续循环的「感知-推理-行动-观察」系统，一个复杂任务可能需要数十次 LLM 调用。理解这一点，是设计可靠 Agent 系统的前提。

展望未来，随着 LLM 能力提升、工具协议标准化（如 MCP）和本地模型成熟，AI Agent 将从开发者工具快速向普通用户的日常助理演进。

LLM 是 Agent 世界的 CPU，真正的竞争在架构层。