𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗩𝗲𝗰𝘁𝗼𝗿 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹: 𝗠𝗼𝗱𝗲𝗹𝘀 𝘁𝗼 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻

Translated for your language. Read the original.

AI-assisted draft.

𝗔𝗹𝗮𝗻𝗮 Ö𝘇𝗴ü 𝗩𝗲𝗸𝘁ö𝗿 𝗚𝗲𝗿𝗶 𝗚𝗲𝘁𝗶𝗿𝗺𝗲: 𝗠𝗼𝗱𝗲𝗹𝗹𝗲𝗿𝗱𝗲𝗻 Ç𝗶𝗳𝘁 𝗗𝗼ğ𝗿𝘂𝗹𝗮𝗺𝗮𝘆𝗮

Genel amaçlı embedding modelleri, uzmanlık gerektiren metinlerde genellikle başarısız olur.

Son ESG projemde, OpenAI'ın ada-002 modelini kullanmak iki büyük soruna yol açtı:

İlgili içeriğin %18'i hiçbir zaman bulunamadı.
Sonuçların %12'si yanlıştı. Örneğin, "Scope 1 emissions" araması "Scope 3 emissions" sonucunu döndürdü.

Sorun benzerlik eşiği değildi; sorun anlamsal kaymaydı (semantic drift). Genel modeller; ESG, hukuk veya tıbbi metinler gibi uzmanlık gerektiren alanlardaki ince farkları anlayamazlar.

Bunu düzeltmek için üç katmanlı çözüm şudur:

𝟭. 𝗠𝗼𝗱𝗲𝗹 𝗦𝗲𝗰̧𝗶𝗺𝗶 Dört modeli test ettik. BGE-M3'ü kendi bünyemizde barındırmak (self-hosting) daha ucuz görünse de, GPU sunucu maliyetleri ve geliştirme süresi nedeniyle aslında 6 kat daha pahalıya mal oldu.

text-embedding-3-large modelini seçtik çünkü:

%91 geri çağırma (recall) oranına ulaştı.
Uzun metinlerde kararlı kalıyor.
En iyi yatırım getirisini (ROI) sunuyor.

𝟮. 𝗔𝗻𝗹𝗮𝗺𝘀𝗮𝗹 𝗞𝗮𝘆𝗺𝗮 𝗔𝘇𝗮𝗹𝘁𝗺𝗮 (𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗗𝗿𝗶𝗳𝘁 𝗠𝗶𝘁𝗶𝗴𝗮𝘁𝗶𝗼𝗻) En iyi modeller bile "low-carbon" ile "zero-carbon" kavramlarını karıştırabiliyor. Üç adımlı bir zenginleştirme (augmentation) stratejisi uyguladım:

Alan Sözlüğü: Tanımları ve "şundan farklıdır" kuralları içeren 500'den fazla terimlik bir harita.
Prompt İpuçları: Kodlama sırasında sözlük bağlamını modele enjekte etmek.
Geri Getirme Sonrası Yeniden Sıralama (Post-retrieval Reranking): Eş anlamlılar için puanları artırmak ve ilgisiz terimler için puanları düşürmek.

Bu, yanlış pozitif oranımızı %12'den %3'e düşürdü.

𝟯. Ç𝗶𝗳𝘁 𝗗𝗼ğ𝗿𝘂𝗹𝗮𝗺𝗮 (𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻) Vektör benzerliği işsel ilgiyi değil, matematiksel mesafeyi ölçer. Doğruluğu sağlamak için çift kontrol sistemi ekledim:

Katman 1: Anahtar kelime tam eşleşmesi. Sonuç, temel olarak gereken terimleri içermelidir.
Katman 2: LLM anlamsal çapraz doğrulama. Bir LLM, veri parçasının (chunk) sorguyu gerçekten yanıtlayıp yanıtlamadığını kontrol eder.
Katman 3: Manuel örneklem kontrolleri. Sistem bozulmasını önlemek için aylık incelemeler.

Bu, doğruluğu %70'ten %94'e çıkardı.

Ö̇𝘇𝗲𝘁𝗹𝗲 (𝗧𝗵𝗲 𝗧𝗮𝗸𝗲𝗮𝘄𝗮𝘆) Eğer verileriniz uzmanlık gerektiren bir jargon kullanıyorsa, tek bir vektör aramasına güvenmeyin. Matematiksel benzerlikten işsel ilgeliğe geçmek için bir sözlüğe, alan ipuçlarına ve bir çift doğrulama katmanına ihtiyacınız var.

Kaynak: https://dev.to/jamesli/part-3-vector-retrieval-in-domain-specific-terminology-scenarios-from-model-selection-to-dual-3485

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi

𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗩𝗲𝗰𝘁𝗼𝗿 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹: 𝗠𝗼𝗱𝗲𝗹𝘀 𝘁𝗼 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻

Continue reading

Phase 1: Document Ingestion