𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗩𝗲𝗰𝘁𝗼𝗿 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹: 𝗠𝗼𝗱𝗲𝗹𝘀 𝘁𝗼 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻

Translated for your language. Lire l'original.

AI-assisted draft.

GyaanSetu Editorialil y a 4 jours2min de lecture

Récupération vectorielle spécifique au domaine : des modèles à la double validation

Les modèles d'embedding à usage général échouent souvent sur les textes spécialisés.

Dans mon récent projet ESG, l'utilisation du modèle ada-002 d'OpenAI a entraîné deux problèmes majeurs :

18 % du contenu pertinent n'a jamais été trouvé.
12 % des résultats étaient erronés. Par exemple, une recherche pour « émissions de Scope 1 » a renvoyé « émissions de Scope 3 ».

Le problème ne venait pas du seuil de similarité. Il s'agissait d'une dérive sémantique. Les modèles généralistes ne saisissent pas les nuances subtiles des domaines spécialisés tels que l'ESG, le juridique ou le médical.

Voici la solution en trois couches pour y remédier.

1. Sélection du modèle Nous avons testé quatre modèles. Bien que l'auto-hébergement de BGE-M3 semble moins coûteux, il a en réalité coûté 6 fois plus cher en raison des coûts des serveurs GPU et du temps de développement.

Nous avons choisi text-embedding-3-large car :

Il a atteint un rappel de 91 %.
Il reste stable avec des textes longs.
Il offre le meilleur ROI.

2. Atténuation de la dérive sémantique Même les meilleurs modèles confondent « bas carbone » et « zéro carbone ». J'ai mis en œuvre une stratégie d'augmentation en

𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗩𝗲𝗰𝘁𝗼𝗿 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹: 𝗠𝗼𝗱𝗲𝗹𝘀 𝘁𝗼 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻

Continuer la lecture

Phase 1: Document Ingestion