कोई भी आपके रोबोट के PRs की समीक्षा नहीं कर रहा है
AI एजेंट अपने काम के बारे में झूठ बोलते हैं।
उद्योग के दिग्गज अब इसे स्वीकार करने लगे हैं। एक डेवलपर ने AI एजेंट के साथ एक ऐप बनाया। उसने एजेंट को बदलाव करना बंद करने के लिए कहा। एजेंट ने उसकी बात अनसुनी कर दी। उसने उसका प्रोडक्शन डेटाबेस डिलीट कर दिया और गलती छिपाने के लिए चार हजार फर्जी रिकॉर्ड बना दिए। फिर, उसने उसे एक कहानी सुनाई कि ऐसा क्यों हुआ।
यह कोई अकेली घटना नहीं है। अध्ययन बताते हैं कि AI कोड में मानव कोड की तुलना में दोष (defect) की दर अधिक होती है। कई डेवलपर्स पाते हैं कि टेस्टिंग पास होने के बाद भी उन्हें AI कोड को डीबग करना पड़ता है।
एक कंपनी और होमलैब के बीच बड़ा अंतर सुरक्षा जाल (safety net) का है।
कंपनियाँ स्टेजिंग एनवायरनमेंट (staging environments) का उपयोग करती हैं। वे पुल रिक्वेस्ट (pull requests) का उपयोग करती हैं। वे मानव समीक्षकों (human reviewers) का उपयोग करती हैं। ये सुरक्षा घेरे (guardrails) झूठ को पकड़ लेते हैं।
एक होमलैब में, आपके पास कोई सुरक्षा जाल नहीं होता।
आप एक एजेंट को अपने सेटअप का एक्सेस देते हैं। वह आपकी कॉन्फ़िग फ़ाइलें लिखता है। वह आपके एनवायरनमेंट वेरिएबल्स को एडिट करता है। वह आपके प्रॉक्सी को मैनेज करता है। आपके गैरेज में कोई स्टेजिंग टियर नहीं होता। पुल रिक्वेस्ट पढ़ने के लिए कोई इंसान नहीं होता। वहाँ केवल आप और एक हरा डैशबोर्ड होता है।
डैशबोर्ड एक जाल है।
मानक सलाह कहती है कि अपटाइम मॉनिटर (uptime monitors) का उपयोग करें। यदि कोई सर्विस रिस्पॉन्स देती है, तो मॉनिटर हरा दिखाता है। लेकिन रिस्पॉन्स देने का मतलब काम करना नहीं है। एक सर्विस पिंग (ping) का जवाब दे सकती है जबकि वास्तविक एप्लिकेशन बंद हो सकता है।
मैंने इसे एक फ़ायरवॉल सेटअप के साथ देखा। मैंने एक Docker होस्ट को सुरक्षित (harden) करने के लिए एक टूल का उपयोग किया। डैशबोर्ड ने कहा कि फ़ायरवॉल सक्रिय और हरा है। वास्तव में, उस टूल ने पूरे प्राइवेट नेटवर्क को खुला छोड़ दिया था। यह एक तिजोरी की तरह काम करने वाला जालीदार दरवाज़ा (screen door) था।
मैंने कंटेनर्स को यह रिपोर्ट करते देखा है कि वे चालू हैं, जबकि उनके अंदर की सर्विस क्रैश हो रही होती है। मैंने ऐसी सर्विसेज देखी हैं जो पिंग का जवाब तो देती हैं लेकिन किसी भी वास्तविक डेटा को प्रोसेस नहीं कर पातीं।
एजेंट वह रिपोर्ट करता है जो उसने किया। डैशबोर्ड वह रिपोर्ट करता है जो वह सोचता है। दोनों झूठ बोल सकते हैं।
आपको एक नए अनुशासन की आवश्यकता है।
यह पूछना बंद करें कि क्या कोई सर्विस चालू है। यह पूछना शुरू करें कि क्या वह अपना काम कर रही है। इसे तोड़ने की कोशिश करके साबित करें।
- केवल फ़ायरवॉल नियम न पढ़ें। किसी ब्लॉक किए गए सोर्स से कनेक्ट करने की कोशिश करें।
- उस बैकअप पर भरोसा न करें जो कहता है कि वह पूरा हो गया है। यह देखने के लिए उसे रिस्टोर करें कि क्या वह काम करता है।
- कॉन्फ़िग फ़ाइल के बारे में एजेंट के दावे पर भरोसा न करें। लाइव फ़ाइल की दावे के साथ बाइट-दर-बाइट तुलना करें।
स्टेटस एक कहानी है। व्यवहार सच्चाई है। जब वे असहमत हों, तो व्यवहार पर भरोसा करें।
मैं अपने काम के सत्तर प्रतिशत के लिए AI का उपयोग करता हूँ। यह उपयोगी है, लेकिन यह लगातार झूठ बोलता है। यह खुशी-खुशी और हरे रंग (green) में झूठ बोलता है।
एंटरप्राइज समाधान पहले रोबोट पर नज़र रखने के लिए और अधिक रोबोट जोड़ना है। होमलैब समाधान सरल है। आप स्वयं सिस्टम को देखते हैं। आप उसे उस तरफ से टेस्ट करते हैं जहाँ वह विफल होता है।
उस रोबोट पर भरोसा न करें जिसे आपने बनाया है।
स्रोत: https://dev.to/p4r4n0id/nobodys-reviewing-your-robots-prs-4aio
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi
