प्रोडक्शन में LLM आउटपुट की गुणवत्ता का मूल्यांकन करना
मार्च 2023 में, GPT-4 ने 97.6% सटीकता के साथ अभाज्य संख्याओं (prime numbers) की पहचान की थी। जून 2023 तक, उसी मॉडल की सटीकता गिरकर 2.4% रह गई। किसी ने कोड नहीं बदला। किसी ने प्रॉम्प्ट नहीं बदला। मॉडल बस बदल गया।
प्रोडक्शन में LLMs के साथ यही मुख्य समस्या है। आपका मॉडल पर नियंत्रण नहीं होता है। यह एक ऐसी निर्भरता (dependency) है जो समय के साथ बदलती (drift) रहती है। यदि आप इसे मापते नहीं हैं, तो आपके उपयोगकर्ता आपको बता देंगे कि यह खराब हो गया है।
आप केवल "अंदाजे" या "यह मुझे ठीक लग रहा है" पर भरोसा नहीं कर सकते। आपको दोहराने योग्य संकेतों (repeatable signals) की आवश्यकता है।
पारंपरिक सॉफ़्टवेयर डिटरमिनिस्टिक (deterministic) होता है। समान इनपुट का अर्थ समान आउटपुट होता है। LLMs इस नियम को तोड़ते हैं। वे नॉन-डिटरमिनिस्टिक (non-deterministic) होते हैं और "सही" होना अक्सर अस्पष्ट होता है।
इसे प्रबंधित करने के लिए, आपको मूल्यांकन के तीन स्तरों की आवश्यकता है:
- ऑफलाइन इवैल्यूएशन (Offline evals): रिग्रेशन (regressions) को पकड़ने के लिए हर बदलाव पर एक निश्चित टेस्ट सेट चलाएं।
- रेफरेंस-फ्री चेक (Reference-free checks): जब आपके पास कोई "सही" उत्तर न हो, तो हैलुसिनेशन डिटेक्शन (hallucination detection) जैसे संकेतों का उपयोग करें।
- प्रोडक्शन मॉनिटरिंग (Production monitoring): ड्रिफ्ट और गुणवत्ता में गिरावट के लिए वास्तविक ट्रैफिक पर नज़र रखें।
इसकी नींव एक गोल्डन डेटासेट (Golden Dataset) है। रैंडम सैंपल का उपयोग न करें। कठिन मामलों के एक क्यूरेटेड सेट का उपयोग करें। खाली इनपुट, अजीब एज केस (edge cases), और एडवर्सरियल प्रॉम्प्ट्स (adversarial prompts) का उपयोग करें। 8,000 रैंडम उदाहरणों से बेहतर 80 सटीक उदाहरण होते हैं।
जब LLM को जज (judge) के रूप में उपयोग कर रहे हों, तो इन पूर्वाग्रहों (biases) पर ध्यान दें:
- पोजीशन बायस (Position bias): जज अक्सर उस पहले उत्तर का पक्ष लेते हैं जिसे वे देखते हैं। तुलनाओं को दोनों क्रमों में चलाकर इसे ठीक करें।
- वर्बोसिटी बायस (Verbosity bias): जज लंबे उत्तरों को पुरस्कृत करते हैं, भले ही वे कम स्पष्ट हों।
- सेल्फ-एनहांसमेंट बायस (Self-enhancement bias): मॉडल अपने ही परिवार के टेक्स्ट को प्राथमिकता देते हैं। आउटपुट का मूल्यांकन करने के लिए अलग-अलग मॉडल परिवारों का उपयोग करें।
रियल-टाइम मॉनिटरिंग के लिए, जाँच करने हेतु RAG ट्रायड (RAG Triad) का उपयोग करें:
- फेथफुलनेस (Faithfulness): क्या उत्तर संदर्भ (context) के अनुरूप है?
- उत्तर की प्रासंगिकता (Answer relevance): क्या यह प्रश्न का समाधान करता है?
- संदर्भ की प्रासंगिकता (Context relevance): क्या सिस्टम ने सही दस्तावेज़ प्राप्त किए?
मॉडल की गुणवत्ता को एक स्थिर गुण (fixed property) मानना बंद करें। इसे लेटेंसी (latency) या एरर रेट (error rates) की तरह मानें। यह बदलता रहता है। आपका काम यह नोटिस करना है कि यह कब अच्छा होना बंद कर देता है।
छोटी शुरुआत करें। 20 गोल्डन उदाहरण लिखें। अपने डिप्लॉयमेंट को नियंत्रित (gate) करने के लिए उनका उपयोग करें। बाद में सस्ते प्रोडक्शन ह्यूरिस्टिक्स (production heuristics) जोड़ें।
जो टीमें चैन की नींद सोती हैं, वे सबसे स्मार्ट मॉडल वाली टीमें नहीं हैं। वे वे टीमें हैं जिन्हें एक घंटे के भीतर पता चल जाता है कि उनका मॉडल कमज़ोर (dumber) हो गया है।
स्रोत: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi
