𝗜 𝗔𝗱𝗱𝗶𝗰𝗶𝗼𝗻𝗲𝗶 𝘂𝗺𝗮 𝗖𝗮𝗺𝗮𝗱𝗮 𝗱𝗲 𝗩𝗲𝗿𝗶𝗳𝗶𝗰𝗮çã𝗼 𝗮𝗼 𝗺𝗲𝘂 𝗥𝗔𝗚 𝗹𝗼𝗰𝗮𝗹 𝗽𝗮𝗿𝗮 𝗰𝗮𝗽𝘁𝘂𝗿𝗮𝗿 𝗮𝗹𝘂𝗰𝗶𝗻𝗮çõ𝗲𝘀
Eu construí um assistente de pesquisa local usando Ollama. Ele roda nos meus próprios artigos. Nada sai da minha máquina.
Eu queria interromper as alucinações. Uma ferramenta que cita um número errado enquanto soa segura é perigosa.
Adicionei uma camada de verificação. Ela funciona em três etapas:
- Dividir a resposta em pequenas afirmações.
- Usar um LLM para verificar cada afirmação em relação à fonte.
- Sinalizar afirmações que a fonte não suporta.
Os resultados me ensinaram uma lição dura. Eu estava errado sobre meus próprios dados duas vezes.
Primeiro, o modelo forneceu um número real, mas usou o contexto errado. Ele citou um AUROC de 0,804 para um conjunto de teste que não existe. O número era real. O contexto era uma mentira. Meu verificador o aprovou porque os dígitos coincidiam.
Segundo, o modelo pegou um número de uma parte diferente do artigo. Ele atribuiu um valor ao experimento errado.
Aqui está o que aprendi testando isso:
A verificação só captura valores ausentes. Se um número não estiver no texto de forma alguma, o verificador o captura. Se o número for real, mas estiver associado ao fato errado, ele geralmente falha.
Juízes do mesmo modelo têm pontos cegos. Se o mesmo modelo escreve a resposta e julga a resposta, ele acaba validando seus próprios erros. Usar um modelo diferente para julgar ajuda a capturar números atribuídos incorretamente.
Um sinalizador nem sempre significa uma mentira. Um sinalizador pode significar três coisas:
- Uma alucinação real.
- Um erro de recuperação onde a fonte não foi encontrada.
- Um fato verdadeiro que não estava no texto recuperado. Quando você vir um sinalizador, tente recuperar os dados novamente em vez de apenas excluir a afirmação.
- Você precisa de uma verdade fundamental (ground truth). Você não pode medir alucinações sem saber as respostas reais. Eu quase publiquei duas descobertas falsas sobre meu próprio trabalho. Uma simples busca em meus arquivos corrigiu ambos os erros.
Conselhos práticos para o seu RAG:
- Use um modelo diferente para julgar do que o que responde.
- Foque em uma melhor recuperação. A maioria das "alucinações" são apenas falhas de recuperação.
- Trate os sinalizadores como um comando para investigar mais a fundo, não apenas como um sinal de erro.
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi