Recuperação de Vetores Específica de Domínio: Dos Modelos à Validação Dupla

Modelos de embedding de propósito geral frequentemente falham em textos especializados.

No meu recente projeto de ESG, o uso do modelo ada-002 da OpenAI levou a dois problemas principais:

  • 18% do conteúdo relevante nunca foi encontrado.
  • 12% dos resultados estavam incorretos. Por exemplo, pesquisar por "emissões de Escopo 1" retornou "emissões de Escopo 3".

O problema não era o limiar de similaridade. Era o desvio semântico (semantic drift). Modelos genéricos não compreendem as nuances de domínios especializados como textos de ESG, jurídicos ou médicos.

Aqui está a solução de três camadas para corrigir isso.

1. Seleção de Modelos Testamos quatro modelos. Embora hospedar o BGE-M3 localmente pareça mais barato, na verdade custou 6x mais devido aos custos de servidores GPU e ao tempo de desenvolvimento.

Escolhemos o text-embedding-3-large porque:

  • Alcançou 91% de recall.
  • Permanece estável com textos longos.
  • Oferece o melhor ROI.

2. Mitigação de Desvio Semântico Mesmo os melhores modelos confundem "low-carbon" com "zero-carbon". Implementei uma estratégia de aumento de três etapas:

  • Dicionário de Domínio: Um mapa de mais de 500 termos com definições e regras de "distinto de".
  • Dicas de Prompt (Prompt Hints): Injeção de contexto do dicionário no modelo durante a codificação.
  • Reclassificação Pós-recuperação (Post-retrieval Reranking): Aumento de pontuação para sinônimos e penalização de pontuação para termos não relacionados.

Isso reduziu nossa taxa de falsos positivos de 12% para 3%.

3. Validação Dupla A similaridade vetorial mede a distância matemática, não a relevância de negócio. Para garantir a precisão, adicionei um sistema de verificação dupla:

  • Camada 1: Correspondência exata de palavras-chave (Keyword hard match). O resultado deve conter os termos essenciais exigidos.
  • Camada 2: Validação cruzada semântica via LLM. Um LLM verifica se o trecho (chunk) realmente responde à consulta.
  • Camada 3: Verificações manuais pontuais. Revisões mensais para evitar a degradação do sistema.

Isso melhorou a precisão de 70% para 94%.

O Aprendizado Principal Se os seus dados utilizam jargões especializados, não dependa de uma única busca vetorial. Você precisa de um dicionário, dicas de domínio e uma camada de validação dupla para passar da similaridade matemática para a relevância de negócio.

Fonte: https://dev.to/jamesli/part-3-vector-retrieval-in-domain-specific-terminology-scenarios-from-model-selection-to-dual-3485

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi