RAG文档切割(Chunking)策略详解:从固定切分到语义切分
本文聚焦RAG系统中的关键环节——文档切割(Chunking)。从切割目标、常见策略、参数设计到评估与排障,系统讲清“为什么切、怎么切、如何验证切得好”,并以Spring AI为主给出可落地实现思路,帮助你在面试与工程实践中都能稳住这一高频考点。
RAG核心原理与工程落地详解:从Naive RAG到Agentic RAG
本文系统梳理RAG(Retrieval-Augmented Generation)的核心原理与工程实践,覆盖Naive RAG、Advanced RAG、Agentic RAG三种范式,对检索优化、评估指标和常见故障排查给出可落地方法,并结合Spring AI与LangChain4j提供Java生态实现思路,帮助你在面试和实战中都能讲清、做对、调优。
CoT、ToT 与 GoT:大模型推理范式进化详解
本文详细介绍了大模型推理范式的三大阶段:Chain of Thought(CoT)、Tree of Thought(ToT)和Graph of Thought(GoT)。通过对比分析,阐述了它们在推理能力、适用场景和工程实现上的差异,帮助读者理解如何选择合适的推理范式来提升Agent的性能。
Agent记忆压缩方法
Agent记忆压缩方法
目录
一、Agent记忆压缩的本质
二、工业级Agent记忆分层架构
三、记忆压缩的五种核心方法
四、Multi-Agent记忆压缩设计
五、面试级总结
一、Agent记忆压缩的本质
1.1 核心定义
Agent记忆压缩是在有限上下文窗口(context window)约束下,实现信息表达效率最大化,同时尽可能保留关键语义与推理能力。
1.2 关键矛盾
上下文窗口有限 📏
信息持续增长 📈
推理依赖历史信息 🧩
因此需要在以下三者之间做权衡:
信息完整性 🧠
token成本 💰
检索与推理效率 ⚡
二、工业级Agent记忆分层架构
2.1 三层记忆体系
id1短期记忆(ST) → 中期记忆(MT) → 长期记忆(LT)
🟡 短期记忆:当前对话窗口(原始信息)
🔵 中期记忆:摘要后的历史信息
🟣 长期记忆:向量数据库中的语义记忆
2.2 Memory Controller(核心大脑)
Memory Controller 是整个系统的调度中心,负责:
🎯 选择需要注入Prompt的记忆
🧹 控制压缩策略
🔍 决定检索范围
...
Agent记忆机制
本文主要介绍了Agent的记忆机制,包括感知记忆、短期记忆、长期记忆和实体记忆四大类,以及它们在不同Agent范式中的作用和工程实现中的设计要点。
Single-Agent与Multi-Agent
本文主要介绍了Single-Agent和Multi-Agent两种Agent系统的核心区别、适用场景以及设计差异,并分析了一个常见的误区,最后给出了面试背诵版总结。
Agent架构详解
本文从原理到工程实现,全面解析了Agent的核心架构,包括六大核心组件、工作流程以及面试常见问题。
Agent三大范式详解:ReAct、Plan-and-Execute、Reflection
本文主要介绍了Agent开发常见的三种范式:ReAct、Plan-and-Execute、Reflection,并对每种范式的核心思想、优缺点以及适用场景进行了详细分析。
Spring事务
本文从原理到实战,全面解析了Spring事务的核心知识点,包括事务的定义、两种实现方式、底层原理、常见失效场景、传播行为、隔离级别以及面试标准回答模板,帮助读者系统掌握Spring事务管理。
Transactional注解详解
本文详细介绍了Spring框架中的`@Transactional`注解,包括其作用范围、底层原理、核心属性以及常见使用坑,帮助读者全面理解和正确使用事务管理。
