𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲
You run many small AI agents. You have agents for backend, frontend, mobile, and devops. Each agent has one job.
When you have many agents, you face a problem. You do not know if they are good. You do not know if a prompt edit makes them better or worse. Saying "it looks fine" does not work at scale.
I built a framework to solve this. It uses numbers to measure performance and improves prompts automatically.
The Strategy
Measure what you can measure with math first. Use an LLM judge only when you must. Deterministic metrics are fast and free. An LLM judge is slow and costs money.
How the system works:
• The harness runs each agent as a separate process. • It feeds a task to the agent. • It captures the output. • It scores the result against expected data.
The agent only needs to read from stdin and write to stdout. It can be Python or a shell script. The harness does not care.
Five core metrics to track:
- Accuracy: Does the output match the goal?
- Fuzzy score: How similar is the text to the target?
- Timeout rate: How often does the agent fail to finish?
- Safety violations: Does the output match unsafe patterns?
- Reproducibility variance: Does the agent give the same answer every time?
If an agent is correct but inconsistent, it is a bug.
The LLM Judge
Some things are hard to measure with math. You need to know if an agent stayed in its role or followed constraints.
For these cases, an LLM judge reviews the work. It receives a rubric and the agent output. It returns a structured verdict. I validate this verdict against a JSON schema so it does not break the report.
The judge does more than just grade. It must suggest fixes. A critique like "this is weak" is useless. A critique like "add a JSON block to the prompt" is actionable.
The Improvement Loop
Failures go into a file. This file feeds an automated loop. The system looks at the weakest part of a prompt and tries to fix it. It keeps a pool of good candidates. It writes the best versions back to the code.
A single score is a snapshot. Use history to track trends. This tells you if you are getting better over time.
Build your foundation on deterministic metrics. Use the judge as a scalpel, not a hammer.
Yapay Zeka Ajanlarını Puanlamak: Deterministik Metrikler ve Bir LLM Yargıcı
Yapay zeka ajanlarını (AI Agents) değerlendirmek, geleneksel yazılım sistemlerini test etmekten çok daha karmaşıktır. Geleneksel yazılımlar genellikle belirli girdiler için belirli çıktılar üretir; ancak yapay zeka ajanları doğası gereği olasılıksaldır (probabilistic). Bu durum, "doğru" cevabın ne olduğunu belirlemeyi zorlaştırır.
Ajan performansını ölçmek için iki ana yaklaşım vardır: Deterministik Metrikler ve LLM Yargıcı (LLM Judge). Bu yazıda, her iki yöntemin avantajlarını, dezavantajlarını ve ne zaman hangisini kullanmanız gerektiğini inceleyeceğiz.
Deterministik Metrikler
Deterministik metrikler, bir çıktının belirli bir kurala, formata veya beklenen değere ne kadar uyduğunu ölçen matematiksel veya mantıksal yöntemlerdir.
Yaygın Kullanılan Deterministik Metrikler:
- Tam Eşleşme (Exact Match): Çıktının, referans metinle (ground truth) karakteri karakterine aynı olup olmadığını kontrol eder.
- Regex (Düzenli İfadeler): Çıktının belirli bir desene (örneğin bir e-posta adresi veya tarih formatı) uyup uymadığını kontrol eder.
- JSON Şema Doğrulaması: Ajanın çıktısının geçerli bir JSON formatında olup olmadığını ve beklenen anahtarları (keys) içerip içermediğini kontrol eder.
- Kod Çalıştırılabilirliği: Eğer ajan kod üretiyorsa, üretilen kodun sözdizimi (syntax) hataları içerip içermediğini veya çalışıp çalışmadığını kontrol eder.
Avantajları:
- Hız: Milisaniyeler içinde sonuç verirler.
- Maliyet: Hesaplama maliyetleri neredeyse sıfırdır.
- Tekrarlanabilirlik: Aynı girdi için her zaman aynı sonucu verirler.
- Netlik: Bir hata varsa, nedenini (örneğin "JSON formatı hatalı") hemen anlayabilirsiniz.
Dezavantajları:
- Katılık: Anlamsal olarak doğru olan ancak format olarak farklı olan cevapları "yanlış" olarak işaretlerler.
- Nüans Eksikliği: Bir cevabın tonunu, nezaketini veya karmaşık mantık yürütme kalitesini ölçemezler.
LLM Yargıcı (LLM Judge)
LLM Yargıcı yaklaşımı, bir yapay zeka modelinin (genellikle daha güçlü bir model olan GPT-4 gibi) başka bir modelin çıktısını değerlendirmesi esasına dayanır. Yargıcı modele bir "rubrik" (değerlendirme kriterleri seti) verilir ve modelden çıktıyı belirli kriterlere göre puanlaması istenir.
LLM Yargıcı Nasıl Çalışır?
Süreç genellikle şu adımları izler:
- Girdi ve Beklenen Yanıt: Kullanıcı sorusu ve varsa referans yanıt sağlanır.
- Ajan Çıktısı: Değerlendirilecek olan ajanın yanıtı.
- Değerlendirme İstemi (Evaluation Prompt): Yargıcı modele verilen talimatlar. Örneğin: "Aşağıdaki yanıtı doğruluk, alaka düzeyi ve ton açısından 1 ile 5 arasında puanla ve nedenini açıkla."
Avantajları:
- Anlamsal Anlayış: Kelimeler farklı olsa bile anlamın doğru olup olmadığını kavrayabilir.
- Esneklik: Çok çeşitli ve karmaşık görevleri değerlendirebilir.
- Açıklanabilirlik: Sadece bir puan vermekle kalmaz, neden o puanı verdiğine dair gerekçeler sunabilir.
Dezavantajları:
- Maliyet: Her değerlendirme için bir API çağrısı gerektirir, bu da maliyeti artırır.
- Yavaşlık: Deterministik metriklerden çok daha yavaştır.
- LLM Yanlılığı (Bias): Yargıcı model, kendi eğitim verilerine veya çıktı formatına benzer yanıtları daha yüksek puanlama eğiliminde olabilir (örneğin, daha uzun yanıtları daha iyi sanabilir).
Karşılaştırma Tablosu
| Özellik | Deterministik Metrikler | LLM Yargıcı |
|---|---|---|
| Hız | Çok Hızlı | Yavaş |
| Maliyet | Çok Düşük | Yüksek |
| Anlamsal Derinlik | Yok | Yüksek |
| Tekrarlanabilirlik | Tam | Orta/Düşük |
| Kullanım Durumu | Format ve Yapı Kontrolü | Kalite ve Mantık Kontrolü |
Hibrit Yaklaşım: En İyi İki Dünyanın Birleşimi
Gerçek dünyadaki en etkili değerlendirme sistemleri genellikle her iki yöntemi de birleştirir. Buna Hibrit Yaklaşım denir.
İdeal bir boru hattı (pipeline) şu şekilde görünebilir:
- Aşama 1 (Deterministik): Çıktı geçerli bir JSON mu? Regex formatına uyuyor mu? Kod çalışıyor mu? Eğer bu testlerden geçemezse, doğrudan "başarısız" olarak işaretlenir.
- Aşama 2 (LLM Yargıcı): Format doğruysa, LLM devreye girer ve içeriğin kalitesini, doğruluğunu ve kullanıcı niyetine uygunluğunu değerlendirir.
Bu yaklaşım, maliyetleri optimize ederken (hatalı formatları LLM'e göndermeyerek) aynı zamanda yüksek kaliteli ve derinlemesine bir değerlendirme sağlar.
Sonuç
Yapay zeka ajanlarınızı ölçeklendirirken, sadece bir yönteme güvenmek yerine stratejik bir seçim yapmalısınız. Yapısal kontroller için deterministik metrikleri, anlamsal kalite için ise LLM Yargıcı'nı kullanın.
Bu içerik GyaanSetu topluluğu için hazırlanmıştır. Öğrenme topluluğuna katılın: https://t.me/GyaanSetuAi