日本实验室如何构建更出色的 RAG 系统
你的向量数据库返回了相关的文本块。你的嵌入模型在基准测试中得分很高。但当用户提出复杂问题时,系统却给出了毫无用处的回答。
这是检索架构的失败。仅仅微调你的 LLM 是无法解决这个问题的。
一个日本研究团队找到了解决方案。他们构建了一个知识图谱 RAG 系统。这种方法将科学任务的准确率提升了 90%。
标准 RAG 的问题在于语义相似性。一段关于蛋白质折叠的文本块可能看起来与关于 CRISPR 的查询很相似。但相似并不意味着相关。
日本团队利用实体关系,而不仅仅是文本块。他们提取:
- 实体(如蛋白质或研究人员)
- 关系(如抑制或引用)
- 属性(如置信度分数)
他们采用两阶段流程。首先,识别相关的子图。其次,检索锚定在这些实体上的文本。这可以防止语义漂移。你检索到的是上下文,而不仅仅是相似的词汇。
GraphRAG 比标准 RAG 更难构建。你需要:
- 实体提取流水线
- 关系分类
- 图存储基础设施
- 混合查询引擎
最大的风险在于维护。如果不进行更新,图谱就会“腐烂”。我在 2023 年通过惨痛的教训学到了这一点。我曾构建过一个高精度的法律 RAG 系统,但未能建立更新机制。六个月后,数据变得陈旧,准确率从 94% 降至 71%。
如何正确构建:
- 从实体分类法开始。挑选 20 到 30 个重要的类型。
- 从第一天起就使用混合检索。利用图谱处理关系,利用向量处理主题。
- 首先构建你的维护流水线。规划新文档如何更新图谱。
- 衡量推理链。追踪系统回答问题所需的步骤。
如果你在科学、法律或医学领域工作,维护成本是值得的。对于简单的常见问题解答(FAQ),标准 RAG 就足够了。
问问你自己:你的查询中有多少比例是在询问关系?如果超过 40% 的用户在询问事物之间的关联,那么你就需要一个图谱。
Optional learning community: https://t.me/GyaanSetuAi