𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialhá 5 horas2min de leitura

Por que seu sistema RAG alucina

Seu sistema RAG tem 34% de precisão de recuperação. Você seguiu todos os tutoriais. Você usou as bibliotecas certas. Você escolheu um tamanho de chunk de um post de blog. No entanto, o sistema ainda falha.

Isso não é um problema de ferramentas. Isso é um problema de fundamentos.

Quando você empilha bibliotecas sem entender as camadas abaixo delas, você cria uma dívida de abstração. Você ganha velocidade, mas perde a capacidade de depurar. Você constrói uma caixa preta.

Para corrigir seu pipeline de RAG, você deve dominar três camadas:

Estratégia de Chunking O tamanho do chunk é uma decisão semântica. Se seus chunks têm 512 tokens, você recupera parágrafos. Se suas perguntas exigem a conexão de ideias entre muitos parágrafos, seus chunks são muito pequenos. Você deve decidir quanto contexto flui entre os chunks.
Modelos de Embedding Embeddings densos capturam o significado, mas perdem a sintaxe exata. Um modelo pode tratar "error 403" e "error 404" como quase idênticos. Você deve saber o que seu modelo captura. Um contrato jurídico precisa de embeddings diferentes de um repositório de código.
Retrieval vs. Recall A busca vetorial encontra tudo o que é potencialmente relevante. Isso é recall. O RAG de produção precisa de precisão. Você precisa da resposta exata, não de dez parágrafos semelhantes. É por isso que você precisa de busca híbrida.

A busca híbrida combina vetores densos com correspondência de palavras-chave (BM25).

A busca semântica pura ignora códigos ou IDs exatos.
A busca por palavra-chave pura ignora o significado conceitual.
A busca híbrida pondera ambos para encontrar a verdade.

O peso correto não está em um manual. Você o encontra testando seus dados específicos.

Pare de confiar na magia. Se você não consegue construir um pipeline de RAG básico do zero, você não está pronto para o Agentic RAG. A complexidade se multiplica quando você não entende o básico.

Faça estas quatro coisas antes do seu próximo projeto:

Faça o benchmark do chunking. Teste três tamanhos diferentes. Meça a precisão no top-1 e top-5.
Teste embeddings com dados reais. Não use testes sintéticos. Use suas consultas de usuários reais.
Registre falhas. Durante duas semanas, registre cada consulta que falhar. Procure padrões no que sua busca está perdendo.
Implemente o BM25 uma vez. Mesmo que use uma biblioteca mais tarde, você precisa entender a linha de base de palavras-chave.

Bibliotecas compram seu tempo. O entendimento compra sua confiabilidade.

Source: https://dev.to/xu_xu_b2179aa8fc958d531d1/why-your-rag-system-keeps-hallucinating-the-hidden-cost-of-skipping-fundamentals-1no8

Optional learning community: https://t.me/GyaanSetuAi

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀

Continuar lendo

Recuperação Híbrida e Observabilidade de Agentes

𝗜 𝗦𝗽𝗲𝗻𝘁 $𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗙𝗶𝘅𝗶𝗻𝗴 𝗧𝗵𝗲𝘀𝗲 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗪𝗵𝘆 𝗠𝘆 𝗥𝗔𝗚 𝗔𝗽𝗽 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝗱 𝗔𝗻𝗱 𝗛𝗼𝘄 𝗜 𝗙𝗶𝘅𝗲𝗱 𝗜𝘁

𝗪𝗵𝘆 𝗠𝘆 𝗥𝗔𝗚 𝗔𝗽𝗽 𝗞𝗲𝗽𝘁 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗻𝗴 𝗔𝗻𝗱 𝗛𝗼𝘄 𝗜 𝗙𝗶𝘅𝗲𝗱 𝗜𝘁