大模型学习概述
大模型是当前人工智能最前沿的技术之一。代表着人工智能从传统的小规模模型向大规模、超大规模参数模型的跨越。就像互联网时代来临一样,大模型也在引领新的技术革命,改变人们的生活和工作方式。它具有强大的知识表示和学习能力,能够通过在大规模数据集上的训练,学习到丰富的知识和复杂的模式。例如,医疗领域可以对大量的病历、医学文献等数据进行学习,当面对新的病例时,能够协助医生从复杂的症状和检查结果中提取关键信息,辅助诊断疾病。这就好比有一个知识渊博的助手,能够帮助我们梳理复杂问题中的头绪,提供更多的思路和解决方案,从而解决复杂问题。适应智能化社会的发展需求。
一、大模型是什么
1.1 定义
大模型通常是指具有海量参数的深度学习模型(具有参数量大、训练数据量大、算力要求高、应用广泛等特点),能够学习到丰富的语言、图像、音频等各种数据中的模式和规律。通过在大规模数据集上预训练,可以自动提取数据的特征,并具备强大的泛化能力,能够处理各种复杂的任务,例如NLP中的文本生成,问答系统、机器翻译、以及视觉中图形识别和生成。
> 深度学习模型本质上就是一种复杂的神经网络,包括多个隐藏层,如MLP、CNN、RNN、LSTM等。
所以,大模型也不专指LLM,也包括视觉图像类的模型(自动驾驶领域)、多模态大模型、以及各领域(医疗、金融、科学等)专用的大模型。
1.2 名称解释
LLM:Large Language Model,大语言模型。目前大多基于Transformer架构,具有强大的语言理解、生成和处理能力。
RAG:Retrieval-Augmented Generation,检索增强生成。是一种结合了信息检索和语言生成技术的方法,为提高准确性、时效性和相关性。大模型“补课”的神器。
AI Agent:AI智能体。它是以大模型为大脑驱动的系统,具有自主理解、感知、规划、记忆和使用工具的能力,能够自动执行完成复杂任务。会思考的行动派。
AGI:通用人工智能。是旨在让人工智能系统具备与人类相似的通用智能能力的技术理念和研究目标。具备像人类一样灵活智能的人工智能形式。
MCP:Model Context Protocol,模型上下文协议。是一种设计框架和开放标准,用于AI系统中高效传递和共享上下文信息。旨在为AI和Agent提供通用的连接框架,使其能够安全地访问外部数据源和工具,从而扩展其能力边界。
FunctionCall:函数调用,用于扩展模型的能力,实现模块化和可维护性,与外部系统交互。
知识库:一种用于存储和管理知识的系统,可以为专业领域提供知识基础,来优化模型的专业能力。
Prompt:
Workflow:工作流是指一系列为完成特定任务的顺序(步骤或操作)集合。定义了任务的整个过程。主要用于任务规划与组织、实现自动化和智能化。
Memory:
GUI:图形用户界面(Graphical User Interface),一种人与计算机交互的界面形式,通过图形元素和直观的操作方式,让用户便捷的使用计算机系统和应用程序。
对于FunctionCall、MCP、Agent的关系,可以理解为 一个模型上下文 + 多个可选 FunctionCall = 1个Agent。
1.3 技术演进
二、大模型的本质
本质和局限性分析
三、大模型的应用
Dify平台中 提到的, 当前主流的应用 都有哪些类型? 做一个调研、
四、大模型体系构建
分几个层次
4.1 大模型预训练
4.2 大模型后训练
4.2.1 数据工程
数据清洗与处理的重要性:直接影响着模型的性能和泛化能力。
主要包括以下内容:数据清洗、数据预处理、数据增强、数据平衡处理、噪声处理。
具体的方法论见:机器学习数据工程概述
4.2.2 模型微调
4.2.3 模型蒸馏
4.3 大模型调优
4.4 AI Agent构建
为什么需要Agent呢?
4.4.1 什么是Agent
Agent听上去较为抽象,简单理解就是 一个基于大模型的专业系统,能够理解用户专业问题和需求,借助工具集自动完成复杂任务。
或者(生成式人工智能智能体)可定义为一种应用程序,其通过观察环境并采取行动(利用自身可调用的工具),试图实现特定目标。
智能体具有自主性,可在无需人类干预的情况下独立运行,尤其是被赋予明确目标时。此外,还能主动规划,通过推理确定下一步行动以完成最终任务。
尽管AI领域的”智能体“概念具有广泛而强大的内涵,但目前更多的聚焦于当前生成式AI大模型能够构建的特定类型智能体。
要理解智能体的内部运作机制,需要了解驱动其行动、行为和决策的核心组件。这些组件的组合可视为一种认知架构,通过不同组件的灵活搭配,可实现多种架构形式。聚焦核心功能,智能体的认知架构包含以下三个基本组件(模型、工具、编排层):

「工具(Tools)」:尽管基础模型在文本和图像生成方面表现卓越,但其本质仍受限于无法与外部世界交互。工具可以通过一下方式弥合:
(1)扩展行动边界「与外部数据和服务交互」
(2)多样化形式与复杂度「tools可涵盖简单/复杂的实现形式,例如WebAPI方法」
(3)支持高级系统「Tools使智能体能够访问实时信息,从而支持RAG等技术」
「编排层(Orchestration Layer)」:编排层定义了智能体运行的循环流程,其核心机制为:接受信息 -> 内部推理 -> 行动决策, 并持续迭代直至达成目标或触发终止条件。其复杂程度因Agent类型及任务性质差异显著:(1)简单场景:例如 库存 > 3,则触发补货API。(2)复杂场景:链式逻辑、集成机器学习、概率推理技术等。
以上部分来自: Google AI Agent白皮书:什么是Agent。
【李宏毅:一堂课搞懂 AI Agent 的原理|2025.03.09】
4.4.2 Agent的演进
“与Agent相关的研究源于分布式人工智能(DAI)。 20世纪80年代,Agent研究逐渐从DAI领域独立出来。通过不断拓展其研究领域,与多个领域互相借鉴和融合,目前其研究内容已涵盖Agent理论、模型与体系结构、面向Agent的软件工程,基于Agent的建模与模拟,Agent通信与协作、面向Agent的学习与规划、自组织和自适应系统以及群智能优化等多个方面,并广泛应用于软件工程、机器人、医疗保健等领域,远超出最初设想的DAI应用范围。Agent理论和技术被许多研究者寄予厚望” - 来自吉林大学计算机学院专刊《Agent理论与技术专刊》2012.
“早在1995年,斯坦福大学计算机系教授Barbara在IJCAI特约报告中就明确指出:智能Agent即是人工智能的最初目标,也是人工智能的最终目标”
过去几十年对智能Agent(智能体)的研究涉及多种不同的形态和架构,涵盖了符号主义、基于逻辑的系统、强化学习、多智能体系统(MAS)、基于深度学习的智能体,以及最近较🔥的基于大模型驱动的认知智能体。其Agent主要的形态和代表如下:
形态 | 子类 | 介绍 | 代表系统/模型/算法 |
---|---|---|---|
基于规则(Symbolic & Rule-based Agents) | 基于规则(Rule-based Systems) | 依赖逻辑推理和预定义规则,无法自适应环境变化 但可解释性、可控性较好 |
专家系统(Expert Systems):如MYCIN 生产系统(Production Systems):如SOAR架构 |
逻辑推理型Agent(Logic-based) | 基于一阶逻辑(FOL, First Order Logic)进行推理,适用于自动定理证明、规划等任务。 | STRIPS用于自动规划。 PROLOG语言开发的逻辑推理Agent。 |
|
认知型Agent(Cognitive Agents) | 强调模拟人类的知识、信念、意图和决策过程,常用于自主决策和多智能体交互 | ||
BDI(Belief-Desire-Intention)模型 | 智能体基于信念(Belief)、愿望(Desire)、意图(Intention)来进行推理和决策 | Rao & Georgeff(1995)提出BDI架构 AgentSpeak(1999):基于BDI的Agent编程语言。 |
|
适应场景:需要长期规划、复杂交互的环境,如自动驾驶、机器人规划、金融决策系统。 | |||
强化学习与自主智能Agent | 强化学习(RL)让智能体通过与环境交互,基于奖惩信号学习最优策略,适用于动态环境。 | ||
马尔可夫决策过程(MDP)Agent | 基于State、Action、Reward进行决策。 通过值迭代(Value Iteration)和策略迭代(Policy Iteration)优化行为。 |
Q-learning(1992) Deep Q-Network(DQN, 2015) Proximal Policy Optimization(PPO, 2017) |
|
世界模型(World Model)智能体 | 让Agent构建环境的内部表示(Latent Representation),基于此进行预测和决策。 | Ha & Schmidhuber(2018)提出World Models,利用VAE + RNN + 控制器模拟环境。 MuZero(2019, DeepMind):通过强化学习学习世界模型,不依赖环境规则。 |
|
适应场景:游戏智能体(AlphaGo、MuZero);自主机器人控制(如Waymo自动驾驶) | |||
多智能体系统(Multi-Agent Systems, MAS) | 当多个智能体需要协作或竞争时,需要特殊的架构来管理交互。分为协作型多智能体系统、竞争型多智能体系统 | ||
协作型多智能体系统;例如:无人机集群(Swarm Intelligence);多机器人协作(如仓储机器人) | |||
竞争型多智能体系统;例如:AlphaStar(DeepMind, 2019):StarCraft 2游戏中的强化学习Agent;OpenAI Five(2019):Dota 2多智能体合作/竞争系统 | |||
认知智能与大模型驱动的Agent | (LLM-based Agents)大模型驱动的智能Agent具备更强的语言理解和任务执行能力 | ||
LLM+强化学习驱动的自主Agent | 结合大模型(如GPT-4)和强化学习,让智能体具备规划、记忆、长时推理能力 | AutoGPT、BabyAGI(2023):探索具备自主规划和行动能力的LLM智能体。 Voyager(2023):能在Minecraft环境中进行自主学习和规划 |
|
具身智能Agent(Embodied AI) | 让智能体具备物理交互能力,不仅停留在纯软件层面 | Tesla Optimus(2022):具备认知和行动能力的机器人 DeepMind SIMA(2024):模拟环境中的具身智能 |
|
未来的智能Agent将融合认知智能、强化学习、世界模型,具备更强的自主适应能力。如:长期记忆(如RAG)与个性化智能、多模态Agent、AGI Agent(如DeepMind提出的Gato(2022)) |
基于大模型驱动的认知智能体的产生也是在大模型出现后,经历了系统提示词阶段、初级工具集成阶段、多智能体架构阶段 到如今爆火的Manus、TARS等产品。
那这样的认知智能体的架构是什么样子呢,如何构建如今基于大模型的认知智能体呢?以及后续主流的Agent的基础架构是什么样呢?
Manus智能体的发布;字节也发布了它们的开源项目Agent TARS,内置了浏览器的操作工具,同时接入了MCP;
Agent这个词很早就出现了,只是开始人们并不是很认可Agent技术路线,直到LLM的出现,Agent技术才可能成为真正服务与普通人的技术。
系统提示词阶段:来自于chatGPT,设计了一种让同一个chat在单一系统提示词下工作的产品形态。简单理解,这个阶段的智能体,只是在chatbot的基础上增加了用户预设,避免chatbot随意发挥,没有边界。 这种形态其实应用非常广泛,特别是在一些让AI做角色扮演的场景。
初级工具集成阶段:在2023年,就出现了集成LLM和工具的自主决策Agent项目,例如AutoGPT,它可以分析用户意图,并调用python来实现一些功能。这一阶段,实现了初级工具集成。 在字节coze平台上, Agent把官方和用户共同提供的插件作为工具, Agent可以自主决定使用哪一个工具作为本次对话的执行。
多智能体架构阶段:(背景)开发者们发现,特定提示词配合特定工具集,使得智能体在某些方面表现非常好,但多加或少加工具,都会让智能体性能大打折扣。 于是由多个智能体打包成一个复合智能体来向用户提供通用性的智能体产品。 这一阶段典型的产品是 AI程序员 Devin。 它可以完成复杂的研发任务,而它的工作原理,就是在内部实现了角色分工,把我们研发任务中的程序员、项目经理等角色,分属给不同内部智能体,让他们在一个社群里协同完成编程目标。
然而,多智能体架构的缺陷在于,这些智能体可能会在社群里形成不统一意见,发生”争吵“没完没了,最后给出质量很差的结果。
新的阶段(第四阶段):想象一下,通过与siri的语音交互,可以查资料,问法律、医疗等各领域的知识,可以预订行程,可以帮你工作,做很多事情。 或者是手机之外的其它终端形式,机器人! 这还需要面临 视觉识别方案的、模型轻量化、多模态交互融合、用户隐私和安全方面的挑战还有大规模工具的集成(MCP解决)。
24年初,苹果被爆正在开发AI原生的操作系统,
25年Manus的火爆,验证了单一智能体大规模集成工具的可行性。实际上,LLM厂商们,都设计了自己的Function call,直到Claude母公司Anthropic提出MCP协议,整个市场进入工具集成的标准化阶段。
人们对智能体的幻想,是让它像一个人一样与我们交流,帮我们调用电脑上的一切,完成我们的工作、创意、编码、查询、下订单等等的脏活累活。(贾维斯)。「当下现状」MCP协议的出现,打破了这种智能体无法调用本地软件的窘境。
简单讲,本地软件的服务商向Agency提供一个MCP服务器, Agent开发者们就可以无痛 甚至无感的让自己的智能体调用软件的功能。 比如美团、大众点评、携程、飞猪等旅游、美食下单的应用, 最适合这种场景。以解决用户日常消费出行的智能化。
MCP是C/S架构,C是软件方,S是提供给智能体调用的服务器。
MCP成为新的行业标准,开发者们就可以专心致志的在Agent和软件(终端)两端沉下心来做研发。而智能体也将迎来大规模工具集成的大爆发。
蓝图的构建,我们可以做什么 从中获利
Agent的形态
4.4.3 Agent案例
名称 | 资源 | 介绍 | 核心功能 | 技术亮点 | 应用场景 |
---|---|---|---|---|---|
Agent TARS | agenttars.org agent-tars.com |
字节25.3月开源的多模态AI Agent框架。专注于通过视觉理解与工具集成实现智能化任务自动化。 | 高级浏览器操作 多工具无缝集成 智能工作流编排 实时交互和与可视化界面 |
多模态感知能力 跨平台兼容性 记忆与上下文管理 自我优化机制 |
市场调研 软件开发 学术研究 自动化客服 生活助手 |
Manus | Monica.im manus.im 未完全开源 |
Manus 是一款通用型 AI 助手,能将想法转化为行动:不止于思考,更注重成果。Manus 擅长处理工作与生活中的各类任务,在你安心休息的同时,一切都能妥善完成。 | 自主操作能力(模拟人类使用电脑) 任务规划与执行 多源信息整合 记忆与学习能力 过程透明与可干预 可视化结果呈现 |
通用型 Agent 定位 GAIA 基准测试 SOTA 成绩 云端异步运行 “少结构,多智能” 设计理念 跨领域执行能力 |
旅行规划 金融分析 教育支持 B2B 采购 内容创作 |
OpenManus | openmanus github |
基于 Manus 所发展出的开源项目。致力于模仿并改进 Manus 这一封闭式商业 AI Agent 的核心功能。 | - | - | - |
OWL | github |
基于CAMEL-AL框架开发的多智能体协作系统(一个前沿的多智能体协作框架)。通过角色和任务分解,让多个智能体协同完成复杂任务。通过利用动态智能体交互,OWL 实现了跨多领域更自然、高效且稳健的任务自动化。 | - | - | - |
Agent TARS 已吸引超1000名开发者参与开源社区建设,未来计划扩展移动端支持,并构建插件生态系统。
OpenManus 是基于 Manus 所发展出的开源项目。由 MetaGPT 团队精心打造的开源项目,于2025年3月发布。致力于模仿并改进 Manus 这一封闭式商业 AI Agent 的核心功能,为用户提供无需邀请码、可本地化部署的智能体解决方案。 换句话说,OpenManus 就像一位全能的数字助手,能够在你的本地设备上运行,随时听候差遣,完成各种复杂任务。
「AI 时代项目复刻的速度有多快?」
MetaGPT团队3小时复刻Manus历程,AI智能体风暴加速来袭。<00后挑大梁>00后挑大梁>
4.4.3 Agent架构
Agent的基础架构
4.5 大模型应用平台
生成式AI应用 的创新引擎(大模型应用平台, 用于构建大模型应用)
4.5.1 平台化
模型评测
- 工程
模型稳定性和性能
模型部署/问题跟踪
目标:支持各类AI应用的快速发展和部署,提升团队的工作效率。
4.5.2 模型应用
大模型应用都有哪些? 先梳理总结20个。
模型赋能业务的效率
数据构建等…
分多个方向介绍 优化方法,工程实践 以应用在各个场景。
五、大模型的动态
名词解释:
LangChain:
Dify:
5.1 Dify
生成式AI应用 的创新引擎(大模型应用平台, 用于构建大模型应用)
- 提供了先进的 开源技术栈 用于构建生成式AI应用程序。
通过dify编排工作室。
提供了 6大 组件能力:RAG管道、提示IDE、工作流、LLM agent、Baas解决方案。
提供的功能:聊天机器人、AI助手;文档生成、
分几大模块:
常规使用AI的方式:人类给予明确指令。
AI Agent 人类只给指令。
今天agent再次爆火,并不是 真的有了什么跟Ai Agent相关的 新的技术,而是在LLM变强之后,
人们开始想,我们能不能直接用LLM 来实现 人类拥有一个 Agent的渴望。