Üretim Ortamında LLM Çıktı Kalitesini Değerlendirmek
Mart 2023'te GPT-4, asal sayıları %97,6 doğrulukla tespit ediyordu. Haziran 2023'e gelindiğinde, aynı modelin doğruluğu %2,4'e düştü. Kimse kodu değiştirmedi. Kimse istemi (prompt) değiştirmedi. Model sadece kaydı.
Bu, üretim ortamındaki LLM'lerin temel sorunudur. Modeli siz kontrol etmezsiniz. O, zamanla kayan (drift eden) bir bağımlılıktır. Eğer ölçmezseniz, bozulduğunu kullanıcılarınız size söyleyecektir.
"Hisler"e veya "bana iyi görünüyor" yaklaşımına güvenemezsiniz. Tekrarlanabilir sinyallere ihtiyacınız var.
Geleneksel yazılım deterministiktir. Aynı girdi, aynı çıktıya eşittir. LLM'ler bu kuralı bozar. Deterministik değillerdir ve "doğru" kavramı genellikle belirsizdir.
Bunu yönetmek için üç katmanlı bir değerlendirmeye ihtiyacınız var:
- Çevrimdışı (offline) değerlendirmeler: Regresyonları yakalamak için her değişiklikte sabit bir test seti çalıştırın.
- Referanssız kontroller: Elinizde "doğru" bir cevap olmadığında halüsinasyon tespiti gibi sinyalleri kullanın.
- Üretim izleme (production monitoring): Kaymaları ve kalite düşüşlerini gözlemlemek için gerçek trafiği takip edin.
Temel, bir Golden Dataset'tir (Altın Veri Seti). Rastgele örnekler kullanmayın. Özenle seçilmiş zor vakalardan oluşan bir set kullanın. Boş girdileri, tuhaf uç durumları (edge cases) ve saldırgan (adversarial) istemleri kullanın. 80 keskin örnek, 8.000 rastgele örneği geride bırakır.
Bir LLM'yi yargıç olarak kullanırken şu yanlılıklara (bias) dikkat edin:
- Konum yanlılığı (Position bias): Yargıçlar genellikle gördükleri ilk cevabı tercih ederler. Karşılaştırmaları her iki sırada da çalıştırarak bunu düzeltin.
- Söz kalabalığı yanlılığı (Verbosity bias): Yargıçlar, daha az net olsalar bile daha uzun cevapları ödüllendirir.
- Öz-geliştirme yanlılığı (Self-enhancement bias): Modeller kendi ailelerinden gelen metinleri tercih eder. Çıktıları değerlendirmek için farklı model aileleri kullanın.
Gerçek zamanlı izleme için şunları kontrol etmek üzere RAG Triad'ı kullanın:
- Sadakat (Faithfulness): Cevap bağlama sadık kalıyor mu?
- Cevap ilgisi (Answer relevance): Soruyu yanıtlıyor mu?
- Bağlam ilgisi (Context relevance): Sistem doğru belgeleri getirdi mi?
Model kalitesini sabit bir özellik gibi görmeyi bırakın. Onu gecikme (latency) veya hata oranları gibi ele alın. Değişir. Sizin işiniz, ne zaman iyi olmaktan çıktığını fark etmektir.
Küçük başlayın. 20 adet altın örnek yazın. Bunları dağıtımlarınızı (deploy) denetlemek için kullanın. Daha sonra düşük maliyetli üretim sezgiselleri (heuristics) ekleyin.
İyi uyuyan ekipler, en akıllı modellere sahip olanlar değildir. Modellerinin aptallaştığını bir saat içinde fark edebilenlerdir.
Kaynak: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an
İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi
