Domänenspezifische Vektorsuche: Von Modellen zur dualen Validierung

Allzweck-Embedding-Modelle scheitern oft an spezialisierten Texten.

In meinem jüngsten ESG-Projekt führte die Verwendung des OpenAI-Modells ada-002 zu zwei Hauptproblemen:

  • 18 % der relevanten Inhalte wurden nie gefunden.
  • 12 % der Ergebnisse waren falsch. Beispielsweise lieferte die Suche nach „Scope 1 emissions“ das Ergebnis „Scope 3 emissions“.

Das Problem war nicht der Ähnlichkeitsschwellenwert. Es war der semantische Drift. Allgemeine Modelle verstehen die feinen Unterschiede in spezialisierten Bereichen wie ESG, Recht oder medizinischen Texten nicht.

Hier ist die dreistufige Lösung, um dies zu beheben.

1. Modellauswahl Wir haben vier Modelle getestet. Obwohl das Self-Hosting von BGE-M3 günstiger erscheint, war es aufgrund von GPU-Serverkosten und Entwicklungszeit tatsächlich sechsmal teurer.

Wir haben uns für text-embedding-3-large entschieden, weil:

  • Es einen Recall von 91 % erreichte.
  • Es bei langen Texten stabil bleibt.
  • Es den besten ROI bietet.

2. Minderung des semantischen Drifts Selbst die besten Modelle verwechseln „low-carbon“ mit „zero-carbon“. Ich habe eine dreistufige Augmentierungsstrategie implementiert:

  • Fachwörterbuch: Eine Zuordnung von über 500 Begriffen mit Definitionen und „Abgrenzungsregeln“.
  • Prompt-Hinweise: Einspeisen des Wörterbuch-Kontexts in das Modell während der Kodierung.
  • Post-Retrieval-Reranking: Erhöhung der Scores für Synonyme und Abwertung von Scores für nicht verwandte Begriffe.

Dies reduzierte unsere Falsch-Positiv-Rate von 12 % auf 3 %.

3. Duale Validierung Vektorsimilarität misst den mathematischen Abstand, nicht die geschäftliche Relevanz. Um die Genauigkeit zu gewährleisten, habe ich ein duales Prüfsystem hinzugefügt:

  • Ebene 1: Keyword-Hard-Match. Das Ergebnis muss die erforderlichen Kernbegriffe enthalten.
  • Ebene 2: LLM-semantische Kreuzvalidierung. Ein LLM prüft, ob der Chunk die Anfrage tatsächlich beantwortet.
  • Ebene 3: Manuelle Stichproben. Monatliche Überprüfungen, um einen Systemverfall zu verhindern.

Dies verbesserte die Genauigkeit von 70 % auf 94 %.

Das Fazit Wenn Ihre Daten Fachjargon verwenden, verlassen Sie sich nicht auf eine einzige Vektorsuche. Sie benötigen ein Wörterbuch, Domänen-Hinweise und eine duale Validierungsebene, um von der mathematischen Ähnlichkeit zur geschäftlichen Relevanz zu gelangen.

Quelle: https://dev.to/jamesli/part-3-vector-retrieval-in-domain-specific-terminology-scenarios-from-model-selection-to-dual-3485

Optionale Lern-Community: https://t.me/GyaanSetuAi