我在 RAG 流水线中添加了一个重排序器 (Reranker) —— 它让一切都崩溃了

Translated for your language. 阅读原文.

AI-assisted draft.

GyaanSetu Editorial2周前2分钟阅读

我在 RAG 流水线中加入了一个重排序器 —— 结果搞砸了一切

我在我的 RAG 流水线中加入了一个重排序器 (reranker)。它立刻让我的测试全部失败了。

在第 2 版中，我使用了结合 FAISS 和 BM25 的混合检索 (hybrid retrieval)。它通过了全部 19 个测试问题。随后，为了提高精度，我加入了一个交叉编码器 (cross-encoder) 重排序器。

原理很简单：

实现只花了 20 分钟。但它立刻导致 19 个测试中的 2 个失败了。

失败的原因在于数据格式。我的数据包含类似这样的密集型表格块： "Company: Zentara Robotics | CEO: Iris Kallas | Employees: 287"

交叉编码器模型是在自然语言段落上训练的。当它看到表格行时，给出的评分非常低。它认为这个数据块是不相关的。

混合检索找到了答案，但重排序器却把它丢弃了。

我尝试了 7 种不同的方法来修复这个问题：

但都没有奏效。重排序器的评分太低了，以至于压倒了其他所有因素。模型不仅仅是降低了排名，它是在主动拒绝这种表格格式。

我不再试图从数学层面去修复，而是改变了结构。

我没有让重排序器决定一切，而是保护了我的最佳结果。我采用了一种“保底位” (guaranteed slot) 策略：

这确保了混合检索的结果能留在最终列表中。重排序器只负责优化剩余的席位。

结果：19/19 个测试全部通过。

经验教训：

在考虑使用重排序器之前，先构建一个强大的检索器。

Optional learning community: https://t.me/GyaanSetuAi