RAG技术演进:从基础检索到智能体驱动知识系统
RAG技术演进:从基础检索到智能体驱动知识系统
在技术快速迭代的时代,每隔一段时间就会出现关于某项技术“已死”的讨论。继“搜索已死”、“Prompt已死”之后,如今RAG技术也成为了热议焦点。
向量数据库Chroma创始人兼CEO Jeff Huber在最近的播客访谈中提出“RAG已死,上下文工程当立”的观点,主张用上下文工程框架取代对RAG术语的狭义依赖。

对于AI应用开发者来说,RAG技术并不陌生。自2022年起,为解决大型语言模型输入长度限制的问题,RAG作为外部知识库解决方案迅速成为行业标准。
其核心机制类似于搜索引擎:将大型文档分割成小块,通过向量嵌入和相似度搜索,找到与用户查询最相关的片段,再提供给语言模型生成答案。
作为近年来最热门的LLM应用范式之一,RAG技术正面临生存危机。长上下文窗口的发展和智能体能力的提升,正在动摇其核心地位。
RAG未死,正向智能体检索演进
来自RAG基础设施提供商LlamaIndex的文章提供了演进视角,认为RAG并非被替代,而是正在经历演进阶段,其中AI智能体成为更强大的RAG架构核心。
文章指出,RAG技术已超越早期的基础区块检索阶段,进入以“智能体策略”为核心的新时代。现代AI工程师需要掌握混合搜索、CRAG、Self-RAG等复杂数据检索技术。
作者以LlamaCloud检索服务为例,系统展示了如何从基础RAG逐步构建能够智能查询多个知识库的、完全由智能体驱动的高级检索系统。
第一阶段:基础Top-k检索
这是RAG技术的起点,工作原理包括:
- 将文档分割为多个区块
- 将区块嵌入存储在向量数据库中
- 用户查询时,系统计算查询嵌入,从数据库中找到最相似的k个区块作为上下文

在LlamaCloud实现中,除了默认的区块检索模式,还提供两种文件级检索模式:
- files_via_metadata:当查询明确提及文件名或路径时,直接检索整个文件
- files_via_content:当查询涉及宽泛主题但需要完整文件背景时,根据内容相关性检索整个文件

第二阶段:引入轻量级智能体——自动路由模式
实际应用中,系统通常无法预知用户查询类型。为解决此问题,作者介绍了“自动路由”检索模式。
该模式本质上是轻量级智能体系统,首先分析用户查询,然后智能判断应采用哪种检索模式,实现在单一知识库内的检索策略自动化。

第三阶段:扩展至多个知识库——复合检索API
当系统需要处理多种格式文档时,将所有文档放在单一索引中效率低下。更优方案是为每种文档类型创建独立、优化的索引。
为同时查询这些分散的知识库,作者介绍了“复合检索API”,核心功能包括:
- 整合多个索引:允许将多个独立索引添加到复合检索器
- 智能路由:通过为每个子索引提供描述,利用智能体层分析用户查询并路由到相关子索引
- 结果重排:从所有查询索引收集结果并进行重排序,返回最相关的top-n结果
第四阶段:构建完全由智能体驱动的知识系统
最终目标是将上述技术整合,构建在每个环节都由智能体决策的完全自动化检索系统,形成双层智能体架构:
- 顶层智能体(复合检索器):接收用户查询后,首先进行LLM分类,判断查询与哪些知识库相关并分发查询
- 子索引层智能体(自动路由模式):特定子索引接收查询后,内部auto_routed模式智能体启动,分析查询意图并决定最合适的检索方法
通过这种分层智能体方法,系统能够以高度动态和智能化的方式响应复杂多样的用户查询。

作者总结,简单RAG已经过时,智能体驱动的检索才是未来。高级检索服务通过分层智能能力,成为高级AI智能体不可或缺的“知识骨干”。
RAG正成为严肃的工程学科
资深机器学习工程师Hamel Husain邀请多位专家系统探讨为什么RAG不仅没有消亡,反而以前所未有的重要性进化为构建可靠、高效AI应用的核心工程学科。
重新定义RAG与评估范式
Ben Clavié指出,将所有信息塞入长上下文窗口在经济和效率上都不切实际。RAG的本质——为语言模型提供训练时未见的外部知识——是永恒需求。
Nandan Thakur颠覆了传统评估体系,认为为传统搜索引擎设计的基准与RAG目标不符。RAG系统检索目标应该是:
- 覆盖率:是否找到生成答案所需的所有事实证据
- 多样性:是否避免信息冗余,高效提供不同方面信息
- 相关性:检索信息是否切题

为此设计了FreshStack基准,为衡量现代RAG系统真实性能提供新标准。

新一代检索模型:具备推理和无损压缩能力
Orion Weller和Antoine Chaffin介绍了两种突破性检索模型范式,让检索器本身具备“思考”能力。
Weller的研究将大模型指令遵循和推理能力直接嵌入检索过程,展示了两个模型:
- Promptriever:指令感知的双编码器模型,能理解并执行复杂指令
- Rank1:能生成明确推理链的重排序模型,通过思考过程判断相关性
Chaffin指出单向量检索的核心缺陷——信息压缩损失,介绍了“延迟交互”模型,不将整个文档压缩成单一向量,而是保留每个token的向量表示。
架构进化:从单一地图到智能路由与上下文工程
Bryan Bischof和Ayush Chaurasia提出,不应再寻找“完美”的嵌入模型,而应为同一份数据创建多种表示,然后利用智能“路由器”理解用户意图并导向最合适的“地图”查询。
Kelly Hong的研究为“长上下文万能论”敲响警钟,提出“上下文腐烂”现象:随着输入上下文增长,大模型性能会显著下降。这证明精巧的上下文工程和精准检索比简单填充上下文窗口更重要。

RAG的讣告:被智能体杀死,被长上下文掩埋
Fintool创始人Nicolas Bustamante拥有十年法律和金融搜索平台构建经验,直言整个RAG架构正成为不必要的臃肿历史包袱。
作者指出RAG架构存在难以克服的“原罪”:
- 切分困境:RAG第一步“切块”就是灾难开始,强制按固定长度切分会破坏文档结构完整性
- 检索噩梦:纯粹向量搜索在专业领域常常失灵,嵌入模型难以区分术语细微差别
- 无尽补丁:为弥补向量搜索不足,引入混合搜索、重排序等环节,导致延迟飙升、成本叠加
- 基础设施负担:维护生产级Elasticsearch集群是艰巨任务
作者认为,智能体和LLM长上下文窗口将直接“终结”RAG。其“顿悟时刻”来自Anthropic发布的Claude Code,这个编码助手未使用任何RAG却表现卓越。
秘诀在于放弃复杂索引管道,回归高效工具:grep(文本搜索)和glob(文件模式匹配)。这种“智能体搜索”范式的工作方式是“调查”而非“检索”:
- 直接访问,非索引:智能体直接在文件系统运行grep,实时高速查找信息
- 完整加载,非碎片:随着上下文窗口扩大,LLM可直接读入整份文档
- 逻辑导航,非相似度匹配:智能体像人类分析师一样在完整文档中进行逻辑跳转

作者结论不是彻底消灭RAG,而是将其“降级”。新范式下,RAG不再是系统核心架构,而是智能体工具箱中的一个选项。
结语
综合三种观点可得清晰结论:初级的基础RAG确实已经“死亡”,那种简单的“切块-向量化-相似度搜索”流程已无法满足复杂AI应用需求。
然而,RAG代表的核心思想——为LLM提供精准可靠外部知识——的需求是永恒的。
未来图景更可能是:
- RAG角色转变:RAG不再是一切应用的默认核心架构,而是被“降级”为智能体工具箱中的强大组件
- 场景决定架构:需要从海量非结构化数据快速筛选信息的场景,由智能体驱动的高级RAG系统仍是最佳选择
- 长上下文统治力:需要对少量复杂文档深度推理分析的场景,“长上下文窗口+智能体调查”范式将展现碾压优势
对开发者而言,关键在于理解不同技术范式优劣,根据具体应用场景灵活组合成最高效可靠的解决方案。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/93182456-f152-4541-af66-5acf696456ec