RAG 检索增强生成是什么?一文讲清原理与流程

为什么大模型会「一本正经地胡说」,RAG 又是怎么解决的?用最直白的方式讲清检索增强生成的原理、完整流程和适用场景。

RAG 检索增强生成是什么?一文讲清原理与流程
编辑部 ·

如果你用大模型问过一些具体、专业的问题,大概率遇到过它「一本正经地胡说八道」——术语叫幻觉(hallucination)。RAG 就是目前对付幻觉最主流的工程方案。这篇用最直白的方式讲清楚它是什么、怎么工作的。

为什么模型会「胡说」

大模型的知识来自训练数据,有两个天然局限:

  1. 有截止日期:训练之后发生的事它不知道
  2. 不掌握你的私有数据:你公司的文档、你的笔记,它没见过

当被问到这些范围外的问题时,模型不会说「我不知道」,而是倾向于根据语言概率编一个看起来合理的答案。这就是幻觉的根源。

RAG 的核心思路

RAG 全称 Retrieval-Augmented Generation(检索增强生成)。思路一句话概括:

回答之前,先去资料库里找相关内容,把找到的资料连同问题一起交给模型,让它「看着资料回答」。

相当于把闭卷考试变成了开卷考试——模型不用死记硬背,而是现查现答。

完整流程拆解

一个典型的 RAG 系统分两个阶段。

阶段一:建立知识库(离线准备)

  1. 切分(Chunking):把文档拆成一段段小文本,方便后续检索
  2. 向量化(Embedding):用嵌入模型把每段文本转成一串数字(向量),语义相近的文本,向量也相近
  3. 入库:把这些向量存进向量数据库(如 Pinecone、Milvus、pgvector)

阶段二:回答问题(在线检索)

  1. 问题向量化:把用户的提问也转成向量
  2. 相似度检索:在向量库里找出与问题最接近的几段文本
  3. 拼接 Prompt:把「检索到的资料 + 用户问题」组合成一个提示词
  4. 生成回答:交给大模型,让它基于资料作答

整个过程对用户是无感的,体验上就是「问一句、答一句」,但答案背后是有依据的。

RAG 适合什么场景

  • 企业知识库问答:员工用自然语言查内部文档、制度、手册
  • 客服机器人:基于产品文档回答用户问题,减少乱答
  • 个人第二大脑:把自己的笔记、收藏喂进去,随时检索
  • 专业领域助手:法律、医疗等对准确性要求高的场景

RAG 不是银弹

它也有局限,用之前要清楚:

  • 检索质量决定上限:没检索到对的资料,模型照样答不好
  • 切分策略很讲究:切太碎丢失上下文,切太大又稀释重点
  • 不适合需要复杂推理的任务:RAG 擅长「找到并复述」,不擅长「跨多段深度推演」

小结

RAG 的本质,是给大模型外挂了一个「可随时查阅的资料库」,用检索来弥补模型知识的时效性和私有性短板。它不改变模型本身,却能大幅提升回答的准确度——这也是为什么今天几乎所有严肃的 AI 应用,背后都有 RAG 的影子。