AI एजंट्सचे मूल्यांकन: डिटरमिनिस्टिक मेट्रिक्स + एक LLM जज

Translated for your language. Read the original.

AI-assisted draft.

४ दिवसांपूर्वी2min read

In this article

𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

तुम्ही अनेक लहान AI एजंट्स चालवता. तुमच्याकडे बॅकएंड, फ्रंटएंड, मोबाईल आणि डेव्हऑप्ससाठी एजंट्स आहेत. प्रत्येक एजंटचे एक विशिष्ट काम असते.

जेव्हा तुमच्याकडे अनेक एजंट्स असतात, तेव्हा तुम्हाला एका समस्येचा सामना करावा लागतो. ते चांगले आहेत की नाही हे तुम्हाला समजत नाही. प्रॉम्प्टमध्ये केलेला बदल त्यांना अधिक चांगले करतो की अधिक खराब, हे देखील तुम्हाला कळत नाही. मोठ्या प्रमाणावर काम करताना "ते ठीक वाटते" असे म्हणणे पुरेसे नसते.

हे सोडवण्यासाठी मी एक फ्रेमवर्क तयार केले आहे. ते कामगिरी मोजण्यासाठी संख्यांचा वापर करते आणि प्रॉम्प्ट्स आपोआप सुधारते.

रणनीती (The Strategy)

जे गणिती पद्धतीने मोजता येते ते आधी मोजा. LLM जजचा वापर केवळ आवश्यक असेल तेव्हाच करा. डिटरमिनिस्टिक मेट्रिक्स (Deterministic metrics) जलद आणि विनामूल्य असतात. LLM जज संथ असतो आणि त्यासाठी खर्च येतो.

ही प्रणाली कशी काम करते:

• हार्नेस (harness) प्रत्येक एजंटला एक स्वतंत्र प्रोसेस म्हणून चालवते. • ते एजंटला एक कार्य (task) देते. • ते आउटपुट कॅप्चर करते. • ते अपेक्षित डेटाच्या आधारे निकालाचे मूल्यांकन करते.

एजंटला फक्त stdin मधून वाचण्याची आणि stdout मध्ये लिहिण्याची गरज आहे. तो Python किंवा शेल स्क्रिप्ट असू शकतो. हार्नेसला याने काही फरक पडत नाही.

ट्रॅक करण्यासाठी पाच मुख्य मेट्रिक्स:

अचूकता (Accuracy): आउटपुट ध्येयाशी जुळते का?
फझी स्कोअर (Fuzzy score): मजकूर लक्ष्याशी किती प्रमाणात साम्य राखतो?
टाइमआउट रेट (Timeout rate): एजंट किती वेळा काम पूर्ण करण्यास अपयशी ठरतो?
सुरक्षा उल्लंघन (Safety violations): आउटपुट असुरक्षित पॅटर्नशी जुळते का?
पुनरुत्पादकता भिन्नता (Reproducibility variance): एजंट प्रत्येक वेळी तोच उत्तर देतो का?

जर एखादा एजंट बरोबर आहे पण विसंगत (inconsistent) असेल, तर तो एक बग (bug) आहे.

LLM जज

काही गोष्टी गणिती पद्धतीने मोजणे कठीण असते. एजंटने आपली भूमिका पाळली आहे की नाही किंवा दिलेल्या मर्यादांचे (constraints) पालन केले आहे की नाही, हे तुम्हाला जाणून घेणे आवश्यक असते.

अशा प्रकरणांसाठी, LLM जज कामाचा आढावा घेतो. त्याला एक रूब्रिक (rubric) आणि एजंटचे आउटपुट मिळते. तो एक स्ट्रक्चर्ड निकाल (verdict) देतो. मी या निकालाची JSON schema नुसार पडताळणी करतो जेणेकरून रिपोर्टमध्ये त्रुटी येणार नाहीत.

जज केवळ ग्रेड देण्यापलीकडे काम करतो. त्याने सुधारणा सुचवणे आवश्यक आहे. "हे कमकुवत आहे" अशी टीका निरुपयोगी आहे. "प्रॉम्प्टमध्ये JSON ब्लॉक जोडा" अशी टीका कृती करण्यायोग्य (actionable) असते.

सुधारणा लूप (The Improvement Loop)

अपयश एका फाईलमध्ये नोंदवले जाते. ही फाईल एका ऑटोमेटेड लूपला इनपुट देते. प्रणाली प्रॉम्प्टचा सर्वात कमकुवत भाग शोधते आणि तो सुधारण्याचा प्रयत्न करते. ती चांगल्या पर्यायांचा एक संच (pool) ठेवते. त्यानंतर ती सर्वोत्तम आवृत्त्या पुन्हा कोडमध्ये लिहिते.

एक सिंगल स्कोअर हा केवळ एक क्षणिक आढावा असतो. ट्रेंड्स ट्रॅक करण्यासाठी इतिहासाचा (history) वापर करा. यामुळे तुम्हाला काळानुसार तुमची प्रगती होत आहे की नाही हे समजते.

तुमचा पाया डिटरमिनिस्टिक मेट्रिक्सवर तयार करा. जजचा वापर हातोड्यासारखा नाही, तर स्कॅल्पलसारखा (अचूक शस्त्रक्रिया करण्यासाठी वापरले जाणारे साधन) करा.

AI एजंट्सचे मूल्यांकन: निश्चित मेट्रिक्स विरुद्ध LLM जज (Scoring AI Agents: Deterministic Metrics vs. An LLM Judge)

AI एजंट्सची कार्यक्षमता मोजणे हे एक आव्हानात्मक काम आहे. त्यांच्या कामगिरीचे अचूक मूल्यमापन करण्यासाठी आपण दोन मुख्य पद्धतींचा विचार करू शकतो: निश्चित मेट्रिक्स (Deterministic Metrics) आणि LLM जज (LLM Judge).

१. निश्चित मेट्रिक्स (Deterministic Metrics)

निश्चित मेट्रिक्स हे विशिष्ट नियमांवर आणि गणितीय सूत्रांवर आधारित असतात. हे मेट्रिक्स ठरवून दिलेल्या मानकांनुसार निकालांची पडताळणी करतात.

उदाहरणे:

Accuracy (अचूकता): मॉडेलने एकूण किती उत्तरे बरोबर दिली.
Precision (प्रिसिजन): मॉडेलने दिलेले सकारात्मक निष्कर्ष किती अचूक आहेत.
Recall (रिकॉल): मॉडेलने एकूण उपलब्ध सकारात्मक प्रकरणांपैकी किती शोधून काढली.
F1 Score: Precision आणि Recall यांचा समतोल दर्शवणारा निर्देशांक.

फायदे:

वेगवान आणि स्वस्त: हे मोजमाप करण्यासाठी खूप कमी वेळ आणि संसाधने लागतात.
पुनरावृत्ती करता येण्यासारखे (Reproducible): दरवेळी निकाल सारखेच मिळतात, कारण ते नियमांवर आधारित असतात.
पूर्वग्रह मुक्त: यामध्ये मानवी किंवा मॉडेलमधील पूर्वग्रहांचा (Bias) प्रभाव पडत नाही.

मर्यादा:

मर्यादित व्याप्ती: हे केवळ संरचित (Structured) डेटा आणि विशिष्ट कामांसाठी उपयुक्त आहेत.
तर्कशक्तीचा अभाव: हे मेट्रिक्स उत्तराचा संदर्भ, टोन किंवा जटिल तर्कशक्ती (Complex reasoning) तपासू शकत नाहीत.

२. LLM जज (LLM Judge)

LLM जज ही पद्धत एका शक्तिशाली मॉडेलचा (उदा. GPT-4) वापर करून दुसऱ्या मॉडेलच्या उत्तरांचे मूल्यमापन करते. हे मॉडेल मानवाप्रमाणे उत्तराचा संदर्भ आणि बारकावे (Nuances) समजून घेऊ शकते.

फायदे:

असंरचित डेटासाठी उपयुक्त: हे पद्धत मजकूर, संवाद आणि सर्जनशील कामांचे मूल्यमापन करू शकते.
संदर्भ समजून घेणे: हे मॉडेल केवळ उत्तर बरोबर आहे की नाही हेच नाही, तर ते किती समर्पक आहे हे देखील तपासू शकते.
लवचिकता: तुम्ही जज मॉडेलला विशिष्ट निकष (Rubrics) देऊन मूल्यमापन करण्यास सांगू शकता.

मर्यादा:

खर्चिक आणि संथ: मोठ्या प्रमाणात मूल्यमापन करण्यासाठी हे महागडे आणि वेळखाऊ असू शकते.
LLM Bias (पूर्वग्रह): जज म्हणून वापरले जाणारे मॉडेल स्वतःचे पूर्वग्रह दाखवू शकते.
Self-preference bias: काही वेळा मॉडेल्स स्वतःच्या शैलीतील उत्तरे अधिक गुण देतात.

तुलनात्मक तक्ता (Comparison Table)

वैशिष्ट्य	निश्चित मेट्रिक्स (Deterministic Metrics)	LLM जज (LLM Judge)
वेग	अत्यंत वेगवान	संथ
खर्च	अत्यंत कमी	जास्त
लवचिकता	कमी (केवळ विशिष्ट कामांसाठी)	उच्च (विविध प्रकारच्या कामांसाठी)
तर्कशक्ती तपासणे	अशक्य	शक्य
पूर्वग्रह (Bias)	नाही	असू शकतो

निष्कर्ष

AI एजंट्सच्या मूल्यमापनासाठी कोणताही एक मार्ग सर्वसमावेशक नाही. सर्वोत्तम निकालांसाठी, एक संकरित दृष्टिकोन (Hybrid Approach) वापरणे फायदेशीर ठरते. साध्या, गणितीय आणि संरचित कामांसाठी निश्चित मेट्रिक्स वापरा आणि जटिल, तर्कशुद्ध किंवा सर्जनशील कामांसाठी LLM जजचा वापर करा.

Optional learning community: https://t.me/GyaanSetuAi

AI एजंट्सचे मूल्यांकन: डिटरमिनिस्टिक मेट्रिक्स + एक LLM जज

AI एजंट्सचे मूल्यांकन: निश्चित मेट्रिक्स विरुद्ध LLM जज (Scoring AI Agents: Deterministic Metrics vs. An LLM Judge)

१. निश्चित मेट्रिक्स (Deterministic Metrics)

२. LLM जज (LLM Judge)

तुलनात्मक तक्ता (Comparison Table)

निष्कर्ष

Continue reading

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

मल्टी एजंट एआय सिस्टम्स: एक व्यावहारिक मार्गदर्शक

प्रॉम्प्ट इंजेक्शनपासून AI एजंट्सना अधिक सुरक्षित करणे

LLM प्रॉम्प्टिंगमध्ये प्रभुत्व मिळवा: डेव्हलपरसाठी एक मार्गदर्शक

𝗗𝗼𝗻'𝘁 𝗨𝘀𝗲 𝗔𝗻 𝗟𝗟𝗠 𝗧𝗼 𝗗𝗲𝗰𝗶𝗱𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗔𝗰𝘁𝗶𝗼𝗻𝘀