RAG技术演进：从基础检索到智能体驱动知识系统

AI快讯 2025-10-20

RAG技术演进：从基础检索到智能体驱动知识系统

在技术快速迭代的时代，每隔一段时间就会出现关于某项技术“已死”的讨论。继“搜索已死”、“Prompt已死”之后，如今RAG技术也成为了热议焦点。

向量数据库Chroma创始人兼CEO Jeff Huber在最近的播客访谈中提出“RAG已死，上下文工程当立”的观点，主张用上下文工程框架取代对RAG术语的狭义依赖。

对于AI应用开发者来说，RAG技术并不陌生。自2022年起，为解决大型语言模型输入长度限制的问题，RAG作为外部知识库解决方案迅速成为行业标准。

其核心机制类似于搜索引擎：将大型文档分割成小块，通过向量嵌入和相似度搜索，找到与用户查询最相关的片段，再提供给语言模型生成答案。

作为近年来最热门的LLM应用范式之一，RAG技术正面临生存危机。长上下文窗口的发展和智能体能力的提升，正在动摇其核心地位。

RAG未死，正向智能体检索演进

来自RAG基础设施提供商LlamaIndex的文章提供了演进视角，认为RAG并非被替代，而是正在经历演进阶段，其中AI智能体成为更强大的RAG架构核心。

文章指出，RAG技术已超越早期的基础区块检索阶段，进入以“智能体策略”为核心的新时代。现代AI工程师需要掌握混合搜索、CRAG、Self-RAG等复杂数据检索技术。

作者以LlamaCloud检索服务为例，系统展示了如何从基础RAG逐步构建能够智能查询多个知识库的、完全由智能体驱动的高级检索系统。

第一阶段：基础Top-k检索

这是RAG技术的起点，工作原理包括：

将文档分割为多个区块
将区块嵌入存储在向量数据库中
用户查询时，系统计算查询嵌入，从数据库中找到最相似的k个区块作为上下文

在LlamaCloud实现中，除了默认的区块检索模式，还提供两种文件级检索模式：

files_via_metadata：当查询明确提及文件名或路径时，直接检索整个文件
files_via_content：当查询涉及宽泛主题但需要完整文件背景时，根据内容相关性检索整个文件

第二阶段：引入轻量级智能体——自动路由模式

实际应用中，系统通常无法预知用户查询类型。为解决此问题，作者介绍了“自动路由”检索模式。

该模式本质上是轻量级智能体系统，首先分析用户查询，然后智能判断应采用哪种检索模式，实现在单一知识库内的检索策略自动化。

第三阶段：扩展至多个知识库——复合检索API

当系统需要处理多种格式文档时，将所有文档放在单一索引中效率低下。更优方案是为每种文档类型创建独立、优化的索引。

为同时查询这些分散的知识库，作者介绍了“复合检索API”，核心功能包括：

整合多个索引：允许将多个独立索引添加到复合检索器
智能路由：通过为每个子索引提供描述，利用智能体层分析用户查询并路由到相关子索引
结果重排：从所有查询索引收集结果并进行重排序，返回最相关的top-n结果

第四阶段：构建完全由智能体驱动的知识系统

最终目标是将上述技术整合，构建在每个环节都由智能体决策的完全自动化检索系统，形成双层智能体架构：

顶层智能体（复合检索器）：接收用户查询后，首先进行LLM分类，判断查询与哪些知识库相关并分发查询
子索引层智能体（自动路由模式）：特定子索引接收查询后，内部auto_routed模式智能体启动，分析查询意图并决定最合适的检索方法

通过这种分层智能体方法，系统能够以高度动态和智能化的方式响应复杂多样的用户查询。

作者总结，简单RAG已经过时，智能体驱动的检索才是未来。高级检索服务通过分层智能能力，成为高级AI智能体不可或缺的“知识骨干”。

RAG正成为严肃的工程学科

资深机器学习工程师Hamel Husain邀请多位专家系统探讨为什么RAG不仅没有消亡，反而以前所未有的重要性进化为构建可靠、高效AI应用的核心工程学科。

重新定义RAG与评估范式

Ben Clavié指出，将所有信息塞入长上下文窗口在经济和效率上都不切实际。RAG的本质——为语言模型提供训练时未见的外部知识——是永恒需求。

Nandan Thakur颠覆了传统评估体系，认为为传统搜索引擎设计的基准与RAG目标不符。RAG系统检索目标应该是：

覆盖率：是否找到生成答案所需的所有事实证据
多样性：是否避免信息冗余，高效提供不同方面信息
相关性：检索信息是否切题

为此设计了FreshStack基准，为衡量现代RAG系统真实性能提供新标准。

新一代检索模型：具备推理和无损压缩能力

Orion Weller和Antoine Chaffin介绍了两种突破性检索模型范式，让检索器本身具备“思考”能力。

Weller的研究将大模型指令遵循和推理能力直接嵌入检索过程，展示了两个模型：

Promptriever：指令感知的双编码器模型，能理解并执行复杂指令
Rank1：能生成明确推理链的重排序模型，通过思考过程判断相关性

Chaffin指出单向量检索的核心缺陷——信息压缩损失，介绍了“延迟交互”模型，不将整个文档压缩成单一向量，而是保留每个token的向量表示。

架构进化：从单一地图到智能路由与上下文工程

Bryan Bischof和Ayush Chaurasia提出，不应再寻找“完美”的嵌入模型，而应为同一份数据创建多种表示，然后利用智能“路由器”理解用户意图并导向最合适的“地图”查询。

Kelly Hong的研究为“长上下文万能论”敲响警钟，提出“上下文腐烂”现象：随着输入上下文增长，大模型性能会显著下降。这证明精巧的上下文工程和精准检索比简单填充上下文窗口更重要。

RAG的讣告：被智能体杀死，被长上下文掩埋

Fintool创始人Nicolas Bustamante拥有十年法律和金融搜索平台构建经验，直言整个RAG架构正成为不必要的臃肿历史包袱。

作者指出RAG架构存在难以克服的“原罪”：

切分困境：RAG第一步“切块”就是灾难开始，强制按固定长度切分会破坏文档结构完整性
检索噩梦：纯粹向量搜索在专业领域常常失灵，嵌入模型难以区分术语细微差别
无尽补丁：为弥补向量搜索不足，引入混合搜索、重排序等环节，导致延迟飙升、成本叠加
基础设施负担：维护生产级Elasticsearch集群是艰巨任务

作者认为，智能体和LLM长上下文窗口将直接“终结”RAG。其“顿悟时刻”来自Anthropic发布的Claude Code，这个编码助手未使用任何RAG却表现卓越。

秘诀在于放弃复杂索引管道，回归高效工具：grep（文本搜索）和glob（文件模式匹配）。这种“智能体搜索”范式的工作方式是“调查”而非“检索”：

直接访问，非索引：智能体直接在文件系统运行grep，实时高速查找信息
完整加载，非碎片：随着上下文窗口扩大，LLM可直接读入整份文档
逻辑导航，非相似度匹配：智能体像人类分析师一样在完整文档中进行逻辑跳转

作者结论不是彻底消灭RAG，而是将其“降级”。新范式下，RAG不再是系统核心架构，而是智能体工具箱中的一个选项。

结语

综合三种观点可得清晰结论：初级的基础RAG确实已经“死亡”，那种简单的“切块-向量化-相似度搜索”流程已无法满足复杂AI应用需求。

然而，RAG代表的核心思想——为LLM提供精准可靠外部知识——的需求是永恒的。

未来图景更可能是：

RAG角色转变：RAG不再是一切应用的默认核心架构，而是被“降级”为智能体工具箱中的强大组件
场景决定架构：需要从海量非结构化数据快速筛选信息的场景，由智能体驱动的高级RAG系统仍是最佳选择
长上下文统治力：需要对少量复杂文档深度推理分析的场景，“长上下文窗口+智能体调查”范式将展现碾压优势

对开发者而言，关键在于理解不同技术范式优劣，根据具体应用场景灵活组合成最高效可靠的解决方案。

想获取更多AI最新资讯与智能工具推荐，欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区

本文来源：机器之心

原文链接：https://www.jiqizhixin.com/articles/93182456-f152-4541-af66-5acf696456ec

RAG技术智能体检索上下文工程 LLM应用向量数据库 AI检索系统知识系统架构检索增强生成

本站部分内容来源于网络，均已注明来源和出处（如有遗漏非主观故意）。本站尊重原创版权，转载内容版权归原作者所有，仅用于信息整理与交流。如原作者不同意转载，请联系我们进行删除或调整。

Video-RAG：轻量高效的长视频理解与多模态对齐框架

2025-10-20

RAG技术演进：从基础检索到智能体驱动知识系统

RAG技术演进：从基础检索到智能体驱动知识系统

RAG未死，正向智能体检索演进

第一阶段：基础Top-k检索

第二阶段：引入轻量级智能体——自动路由模式

第三阶段：扩展至多个知识库——复合检索API

第四阶段：构建完全由智能体驱动的知识系统

RAG正成为严肃的工程学科

重新定义RAG与评估范式

新一代检索模型：具备推理和无损压缩能力

架构进化：从单一地图到智能路由与上下文工程

RAG的讣告：被智能体杀死，被长上下文掩埋

结语

Meta强化学习扩展定律研究：40万GPU小时揭示可预测训练与算力效率

小红书EGMN模型获RecSys 2025最佳论文提名，视频观看时长预测受国际认可

相关文章

最新文章

热门工具