Récupération vectorielle spécifique au domaine : des modèles à la double validation

Les modèles d'embedding à usage général échouent souvent sur les textes spécialisés.

Dans mon récent projet ESG, l'utilisation du modèle ada-002 d'OpenAI a entraîné deux problèmes majeurs :

  • 18 % du contenu pertinent n'a jamais été trouvé.
  • 12 % des résultats étaient erronés. Par exemple, une recherche pour « émissions de Scope 1 » a renvoyé « émissions de Scope 3 ».

Le problème ne venait pas du seuil de similarité. Il s'agissait d'une dérive sémantique. Les modèles généralistes ne saisissent pas les nuances subtiles des domaines spécialisés tels que l'ESG, le juridique ou le médical.

Voici la solution en trois couches pour y remédier.

1. Sélection du modèle Nous avons testé quatre modèles. Bien que l'auto-hébergement de BGE-M3 semble moins coûteux, il a en réalité coûté 6 fois plus cher en raison des coûts des serveurs GPU et du temps de développement.

Nous avons choisi text-embedding-3-large car :

  • Il a atteint un rappel de 91 %.
  • Il reste stable avec des textes longs.
  • Il offre le meilleur ROI.

2. Atténuation de la dérive sémantique Même les meilleurs modèles confondent « bas carbone » et « zéro carbone ». J'ai mis en œuvre une stratégie d'augmentation en