Recuperação de Vetores Específica de Domínio: Dos Modelos à Validação Dupla
Modelos de embedding de propósito geral frequentemente falham em textos especializados.
No meu recente projeto de ESG, o uso do modelo ada-002 da OpenAI levou a dois problemas principais:
- 18% do conteúdo relevante nunca foi encontrado.
- 12% dos resultados estavam incorretos. Por exemplo, pesquisar por "emissões de Escopo 1" retornou "emissões de Escopo 3".
O problema não era o limiar de similaridade. Era o desvio semântico (semantic drift). Modelos genéricos não compreendem as nuances de domínios especializados como textos de ESG, jurídicos ou médicos.
Aqui está a solução de três camadas para corrigir isso.
1. Seleção de Modelos Testamos quatro modelos. Embora hospedar o BGE-M3 localmente pareça mais barato, na verdade custou 6x mais devido aos custos de servidores GPU e ao tempo de desenvolvimento.
Escolhemos o text-embedding-3-large porque:
- Alcançou 91% de recall.
- Permanece estável com textos longos.
- Oferece o melhor ROI.
2. Mitigação de Desvio Semântico Mesmo os melhores modelos confundem "low-carbon" com "zero-carbon". Implementei uma estratégia de aumento de três etapas:
- Dicionário de Domínio: Um mapa de mais de 500 termos com definições e regras de "distinto de".
- Dicas de Prompt (Prompt Hints): Injeção de contexto do dicionário no modelo durante a codificação.
- Reclassificação Pós-recuperação (Post-retrieval Reranking): Aumento de pontuação para sinônimos e penalização de pontuação para termos não relacionados.
Isso reduziu nossa taxa de falsos positivos de 12% para 3%.
3. Validação Dupla A similaridade vetorial mede a distância matemática, não a relevância de negócio. Para garantir a precisão, adicionei um sistema de verificação dupla:
- Camada 1: Correspondência exata de palavras-chave (Keyword hard match). O resultado deve conter os termos essenciais exigidos.
- Camada 2: Validação cruzada semântica via LLM. Um LLM verifica se o trecho (chunk) realmente responde à consulta.
- Camada 3: Verificações manuais pontuais. Revisões mensais para evitar a degradação do sistema.
Isso melhorou a precisão de 70% para 94%.
O Aprendizado Principal Se os seus dados utilizam jargões especializados, não dependa de uma única busca vetorial. Você precisa de um dicionário, dicas de domínio e uma camada de validação dupla para passar da similaridade matemática para a relevância de negócio.
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi