𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

तुम्ही अनेक लहान AI एजंट्स चालवता. तुमच्याकडे बॅकएंड, फ्रंटएंड, मोबाईल आणि डेव्हऑप्ससाठी एजंट्स आहेत. प्रत्येक एजंटचे एक विशिष्ट काम असते.

जेव्हा तुमच्याकडे अनेक एजंट्स असतात, तेव्हा तुम्हाला एका समस्येचा सामना करावा लागतो. ते चांगले आहेत की नाही हे तुम्हाला समजत नाही. प्रॉम्प्टमध्ये केलेला बदल त्यांना अधिक चांगले करतो की अधिक खराब, हे देखील तुम्हाला कळत नाही. मोठ्या प्रमाणावर काम करताना "ते ठीक वाटते" असे म्हणणे पुरेसे नसते.

हे सोडवण्यासाठी मी एक फ्रेमवर्क तयार केले आहे. ते कामगिरी मोजण्यासाठी संख्यांचा वापर करते आणि प्रॉम्प्ट्स आपोआप सुधारते.

रणनीती (The Strategy)

जे गणिती पद्धतीने मोजता येते ते आधी मोजा. LLM जजचा वापर केवळ आवश्यक असेल तेव्हाच करा. डिटरमिनिस्टिक मेट्रिक्स (Deterministic metrics) जलद आणि विनामूल्य असतात. LLM जज संथ असतो आणि त्यासाठी खर्च येतो.

ही प्रणाली कशी काम करते:

• हार्नेस (harness) प्रत्येक एजंटला एक स्वतंत्र प्रोसेस म्हणून चालवते. • ते एजंटला एक कार्य (task) देते. • ते आउटपुट कॅप्चर करते. • ते अपेक्षित डेटाच्या आधारे निकालाचे मूल्यांकन करते.

एजंटला फक्त stdin मधून वाचण्याची आणि stdout मध्ये लिहिण्याची गरज आहे. तो Python किंवा शेल स्क्रिप्ट असू शकतो. हार्नेसला याने काही फरक पडत नाही.

ट्रॅक करण्यासाठी पाच मुख्य मेट्रिक्स:

  • अचूकता (Accuracy): आउटपुट ध्येयाशी जुळते का?
  • फझी स्कोअर (Fuzzy score): मजकूर लक्ष्याशी किती प्रमाणात साम्य राखतो?
  • टाइमआउट रेट (Timeout rate): एजंट किती वेळा काम पूर्ण करण्यास अपयशी ठरतो?
  • सुरक्षा उल्लंघन (Safety violations): आउटपुट असुरक्षित पॅटर्नशी जुळते का?
  • पुनरुत्पादकता भिन्नता (Reproducibility variance): एजंट प्रत्येक वेळी तोच उत्तर देतो का?

जर एखादा एजंट बरोबर आहे पण विसंगत (inconsistent) असेल, तर तो एक बग (bug) आहे.

LLM जज

काही गोष्टी गणिती पद्धतीने मोजणे कठीण असते. एजंटने आपली भूमिका पाळली आहे की नाही किंवा दिलेल्या मर्यादांचे (constraints) पालन केले आहे की नाही, हे तुम्हाला जाणून घेणे आवश्यक असते.

अशा प्रकरणांसाठी, LLM जज कामाचा आढावा घेतो. त्याला एक रूब्रिक (rubric) आणि एजंटचे आउटपुट मिळते. तो एक स्ट्रक्चर्ड निकाल (verdict) देतो. मी या निकालाची JSON schema नुसार पडताळणी करतो जेणेकरून रिपोर्टमध्ये त्रुटी येणार नाहीत.

जज केवळ ग्रेड देण्यापलीकडे काम करतो. त्याने सुधारणा सुचवणे आवश्यक आहे. "हे कमकुवत आहे" अशी टीका निरुपयोगी आहे. "प्रॉम्प्टमध्ये JSON ब्लॉक जोडा" अशी टीका कृती करण्यायोग्य (actionable) असते.

सुधारणा लूप (The Improvement Loop)

अपयश एका फाईलमध्ये नोंदवले जाते. ही फाईल एका ऑटोमेटेड लूपला इनपुट देते. प्रणाली प्रॉम्प्टचा सर्वात कमकुवत भाग शोधते आणि तो सुधारण्याचा प्रयत्न करते. ती चांगल्या पर्यायांचा एक संच (pool) ठेवते. त्यानंतर ती सर्वोत्तम आवृत्त्या पुन्हा कोडमध्ये लिहिते.

एक सिंगल स्कोअर हा केवळ एक क्षणिक आढावा असतो. ट्रेंड्स ट्रॅक करण्यासाठी इतिहासाचा (history) वापर करा. यामुळे तुम्हाला काळानुसार तुमची प्रगती होत आहे की नाही हे समजते.

तुमचा पाया डिटरमिनिस्टिक मेट्रिक्सवर तयार करा. जजचा वापर हातोड्यासारखा नाही, तर स्कॅल्पलसारखा (अचूक शस्त्रक्रिया करण्यासाठी वापरले जाणारे साधन) करा.

AI एजंट्सचे मूल्यांकन: निश्चित मेट्रिक्स विरुद्ध LLM जज (Scoring AI Agents: Deterministic Metrics vs. An LLM Judge)

AI एजंट्सची कार्यक्षमता मोजणे हे एक आव्हानात्मक काम आहे. त्यांच्या कामगिरीचे अचूक मूल्यमापन करण्यासाठी आपण दोन मुख्य पद्धतींचा विचार करू शकतो: निश्चित मेट्रिक्स (Deterministic Metrics) आणि LLM जज (LLM Judge).

१. निश्चित मेट्रिक्स (Deterministic Metrics)

निश्चित मेट्रिक्स हे विशिष्ट नियमांवर आणि गणितीय सूत्रांवर आधारित असतात. हे मेट्रिक्स ठरवून दिलेल्या मानकांनुसार निकालांची पडताळणी करतात.

उदाहरणे:

  • Accuracy (अचूकता): मॉडेलने एकूण किती उत्तरे बरोबर दिली.
  • Precision (प्रिसिजन): मॉडेलने दिलेले सकारात्मक निष्कर्ष किती अचूक आहेत.
  • Recall (रिकॉल): मॉडेलने एकूण उपलब्ध सकारात्मक प्रकरणांपैकी किती शोधून काढली.
  • F1 Score: Precision आणि Recall यांचा समतोल दर्शवणारा निर्देशांक.

फायदे:

  • वेगवान आणि स्वस्त: हे मोजमाप करण्यासाठी खूप कमी वेळ आणि संसाधने लागतात.
  • पुनरावृत्ती करता येण्यासारखे (Reproducible): दरवेळी निकाल सारखेच मिळतात, कारण ते नियमांवर आधारित असतात.
  • पूर्वग्रह मुक्त: यामध्ये मानवी किंवा मॉडेलमधील पूर्वग्रहांचा (Bias) प्रभाव पडत नाही.

मर्यादा:

  • मर्यादित व्याप्ती: हे केवळ संरचित (Structured) डेटा आणि विशिष्ट कामांसाठी उपयुक्त आहेत.
  • तर्कशक्तीचा अभाव: हे मेट्रिक्स उत्तराचा संदर्भ, टोन किंवा जटिल तर्कशक्ती (Complex reasoning) तपासू शकत नाहीत.

२. LLM जज (LLM Judge)

LLM जज ही पद्धत एका शक्तिशाली मॉडेलचा (उदा. GPT-4) वापर करून दुसऱ्या मॉडेलच्या उत्तरांचे मूल्यमापन करते. हे मॉडेल मानवाप्रमाणे उत्तराचा संदर्भ आणि बारकावे (Nuances) समजून घेऊ शकते.

फायदे:

  • असंरचित डेटासाठी उपयुक्त: हे पद्धत मजकूर, संवाद आणि सर्जनशील कामांचे मूल्यमापन करू शकते.
  • संदर्भ समजून घेणे: हे मॉडेल केवळ उत्तर बरोबर आहे की नाही हेच नाही, तर ते किती समर्पक आहे हे देखील तपासू शकते.
  • लवचिकता: तुम्ही जज मॉडेलला विशिष्ट निकष (Rubrics) देऊन मूल्यमापन करण्यास सांगू शकता.

मर्यादा:

  • खर्चिक आणि संथ: मोठ्या प्रमाणात मूल्यमापन करण्यासाठी हे महागडे आणि वेळखाऊ असू शकते.
  • LLM Bias (पूर्वग्रह): जज म्हणून वापरले जाणारे मॉडेल स्वतःचे पूर्वग्रह दाखवू शकते.
  • Self-preference bias: काही वेळा मॉडेल्स स्वतःच्या शैलीतील उत्तरे अधिक गुण देतात.

तुलनात्मक तक्ता (Comparison Table)

वैशिष्ट्य निश्चित मेट्रिक्स (Deterministic Metrics) LLM जज (LLM Judge)
वेग अत्यंत वेगवान संथ
खर्च अत्यंत कमी जास्त
लवचिकता कमी (केवळ विशिष्ट कामांसाठी) उच्च (विविध प्रकारच्या कामांसाठी)
तर्कशक्ती तपासणे अशक्य शक्य
पूर्वग्रह (Bias) नाही असू शकतो

निष्कर्ष

AI एजंट्सच्या मूल्यमापनासाठी कोणताही एक मार्ग सर्वसमावेशक नाही. सर्वोत्तम निकालांसाठी, एक संकरित दृष्टिकोन (Hybrid Approach) वापरणे फायदेशीर ठरते. साध्या, गणितीय आणि संरचित कामांसाठी निश्चित मेट्रिक्स वापरा आणि जटिल, तर्कशुद्ध किंवा सर्जनशील कामांसाठी LLM जजचा वापर करा.


Optional learning community: https://t.me/GyaanSetuAi