माझ्या एजंटने १२ सांगितले. खरा आकडा १३ होता.
मी स्थानिक पातळीवर (locally) चालणारा एक कोडिंग एजंट तयार करत आहे. तो प्लॅनिंगसाठी Claude आणि कोड जनरेशनसाठी स्थानिक मॉडेल्सचा वापर करतो. अलीकडेच, मी एका साध्या कामासाठी एजंटला सोडून दिले: विशिष्ट लॉग्स (logs) मोजणे.
एजंटने १२ सांगितले. मॅन्युअल बुककीपिंग करून मी थकलो होतो, म्हणून मी ते जवळपास स्वीकारलेच होते. मग मी माझ्या टर्मिनलमध्ये मॅन्युअल तपासणी केली. खरा आकडा १३ होता.
एका एन्ट्रीचा आकार अनियमित असल्यामुळे एजंटने ती चुकवली. एजंट 'हॅलुसिनेट' (hallucinating) करत नव्हता. तो फक्त "जवळपास बरोबर" होता. हा सर्वात धोकादायक प्रकारचा एरर (error) आहे. तो इतका पटण्यासारखा वाटतो की त्यावर विश्वास ठेवणे सोपे जाते.
त्याहूनही वाईट म्हणजे, अंतिम सारांश मेट्रिक (summary metric) बरोबर दिसत होते. राउंडिंग आणि ग्रुपिंगच्या पायऱ्यांमुळे ती चूक लपली गेली. जर मी फक्त अंतिम रिपोर्ट पाहिला असता, तर मला कोणतीही चूक दिसली नसती. पण रॉ डेटा (raw data) चुकीचा होता. एकदा का तुमचे मूळ मोजमाप चुकीचे झाले की, प्रत्येक पुढील रिपोर्टमध्ये तो दोष उतरतो.
मी विश्वास आणि मोजमापाबाबत एक कठीण धडा शिकलो.
जर तुम्ही काम करणाऱ्या सिस्टमलाच त्या कामाचे मूल्यमापन करू दिले, तर तुमची समस्या निर्माण होते. तुम्ही परीक्षार्थीलाच परीक्षक बनवले आहे. एका प्रोबॅबिलिस्टिक मॉडेलला (probabilistic model) कधीही सत्याचा एकमेव स्रोत नसावे.
मी आता दोन नवीन नियमांचे पालन करत आहे:
मानवाने प्रथम ऑटोमेशनचे साक्षीदार होणे आवश्यक आहे. स्वयंचलित मोजमाप करणाऱ्या सिस्टमवर विश्वास ठेवण्यापूर्वी, मी स्वतः एक डिटरमिनिस्टिक (deterministic) मोजणी करतो. टर्मिनलमध्ये आकडे कसे येतात, हे मी स्वतः पाहतो. जेव्हा मशीन आणि माणूस अनेक वेळा पूर्णपणे जुळतात, तेव्हाच मी हा नियम शिथिल करतो.
मोजमाप दृश्यमान युनिट्सशी (observable units) जोडा. एजंट नेमके तेच मोजत आहे जे एखादा माणूस पाहू शकतो, याची मी खात्री करतो. जर डेटा संच (population) विस्कळीत असेल, तर आकडे बदलत जातील. जर डेटा संच अचूक असेल, तर आपण निकालांची प्रत्यक्ष तुलना करू शकतो.
हा दृष्टिकोन संथ आहे. तो कायमस्वरूपी स्केल (scale) करता येणार नाही. पण विश्वासाचा पाया रचण्यासाठी हीच पद्धत आहे.
तुम्ही AI ला कोड लिहू देऊ शकता. तुम्ही AI ला विश्लेषण करू देऊ शकता. पण महत्त्वाच्या आकड्यांसाठी, एक डिटरमिनिस्टिक प्रक्रिया हीच अंतिम साक्षीदार असली पाहिजे.
तुम्ही मर्यादा कशी ठरवता? एखादा आकडा हाताने तपासण्याइतका महत्त्वाचा आहे, हे तुम्ही कधी ठरवता?
Source: https://dev.to/josephyeo/my-agent-reported-12-the-real-number-was-13-5864
Optional learning community: https://t.me/GyaanSetuAi
