Agent架构详解
Agent 架构详解:从原理到工程实现
目录
一、前言
随着大模型(LLM)的发展,传统“问答式 AI”正在向**具备自主决策能力的 Agent(智能体)**演进。
相比普通 LLM,Agent 不仅能“回答问题”,还可以:
- 拆解复杂任务
- 调用工具执行操作
- 进行多轮推理
- 持续学习与优化
👉 本质上,Agent 是一个具备“类人工作流程”的系统。
二、什么是 Agent?
一句话定义:
Agent = LLM + Planning + Tools + Memory
更完整一点:
Agent 是一个具备“感知、推理、决策、执行、记忆、反馈”的闭环智能系统。
三、Agent 核心架构(重点🔥)
3.1 总体架构图
1 | ┌──────────────┐ |
四、六大核心组件详解
4.1 感知模块(Perception)
作用
负责接收并解析用户输入
输入类型
- 文本(Prompt)
- 图片 / 文件 / 音频
- 外部数据(API / DB)
本质
👉 将“非结构化输入”转为模型可理解的信息
4.2 大模型核心(LLM Core)
作用
Agent 的“大脑”
核心能力
- 语义理解(NLU)
- 推理能力(Reasoning)
- 文本生成(Generation)
常见机制
- Chain of Thought(思维链)
- Tool Calling(工具决策)
👉 本质:负责“思考”
4.3 规划模块(Planner)
作用
将复杂任务拆解为多个子任务
示例
用户输入:
帮我制定后端学习计划
Planner 输出:
- 分析学习目标
- 拆分阶段(Java基础 / Web / 数据库)
- 制定每日任务
常见模式
- ReAct(Reason + Act)
- Plan-and-Execute
- Tree of Thoughts
👉 本质:决定“怎么做”
4.4 工具模块(Tools / Skills)
作用
让 Agent 具备“执行能力”
常见工具
- Web 搜索
- Python 执行
- 数据库查询
- API 调用
核心逻辑
LLM 决定:
- 是否调用工具
- 调用哪个工具
- 参数如何构造
👉 本质:解决“能不能做”
4.5 记忆系统(Memory)
作用
让 Agent 具备上下文理解和长期记忆
分类
- 短期记忆**
- 当前对话上下文
- Token Window
- 长期记忆
- 用户偏好
- 历史记录
- 知识库(RAG)
技术实现
- Embedding + 向量数据库
👉 本质:避免“失忆问题”
4.6 执行与反馈(Executor + Feedback)
作用
执行任务并持续优化结果
包含能力
- 工具结果处理
- 错误重试
- 自我反思(Reflection)
高级机制
- Self-Correction
- Critic 模型
👉 本质:形成闭环优化系统
五、Agent 工作流程(面试高频🔥)
1 | 1. 用户输入任务 |
六、案例分析(工程视角)
🎯 场景:论文分析 Agent
用户输入:
帮我分析一篇论文
内部流程
| 阶段 | 行为 |
|---|---|
| 感知 | 识别任务类型为“论文分析” |
| Planner | 拆分为:摘要 / 方法 / 实验 |
| LLM | 判断需要解析 PDF |
| Tools | 调用文档解析工具 |
| Memory | 存储分析结果 |
| 输出 | 返回结构化总结 |
七、常见面试问题总结
1:Agent 和普通 LLM 有什么区别?
| LLM | Agent |
|---|---|
| 只负责生成 | 可执行任务 |
| 无记忆 | 有 Memory |
| 单轮推理 | 多轮决策 |
| 无工具 | 可调用工具 |
2:Agent 的核心能力是什么?
👉 三点:
- 推理能力(LLM)
- 执行能力(Tools)
- 记忆能力(Memory)
3:Agent 为什么需要 Planner?
👉 因为 LLM 不擅长处理复杂多步骤任务,需要:
- 显式拆解任务
- 控制执行流程
八、总结
Agent 的本质可以归纳为:
一个基于 LLM 的“任务执行系统”
其核心架构:
1 | LLM + Planning + Tools + Memory |
最终目标:
👉 从“回答问题”升级为“解决问题”