मार्गारेट अ‍ॅटवुड यांचा इशारा: AI अजूनही "Garbage In, Garbage Out" मध्ये का अडकले आहे?

प्रसिद्ध लेखिका मार्गारेट अ‍ॅटवुड यांनी अलीकडेच लार्ज लँग्वेज मॉडेल्सवर (LLMs) कडक टीका केली असून, अचूकता आणि डेटाच्या विश्वासार्हतेबाबत (data integrity) येणाऱ्या सततच्या अडचणींवर प्रकाश टाकला आहे. त्यांचा अनुभव सध्याच्या AI युगातील एक मूलभूत सत्य अधोरेखित करतो: अगदी प्रगत मॉडेल्स देखील त्यांच्या ट्रेनिंग डेटाच्या गुणवत्तेमुळे मर्यादित असतात.

Claude चा प्रयोग: 'हॅल्युसिनेशन' (Hallucinations) मधून मिळणारा धडा

पोर्तुगालमधील पोर्टो येथे आयोजित 'बॅबेल लिटरेरी अँड कल्चरल फेस्टिव्हल'मध्ये बोलताना, Handmaid’s Tale च्या लेखिकेने Anthropic च्या Claude वापरण्याचा आपला एक अनुभव सांगितला. ब्रिटिश डिटेक्टिव्ह सिरीज Father Brown बद्दल माहिती मिळवण्यासाठी अ‍ॅटवुड यांनी चॅटबॉटचा वापर करण्याचा प्रयत्न केला, परंतु तो अयशस्वी ठरला. हा अनुभव "हॅल्युसिनेशन" (hallucination) ही संकल्पना अगदी अचूकपणे स्पष्ट करतो.

अ‍ॅटवुड यांच्या मते, मॉडेलने चुकीची माहिती दिली, ज्यामुळे वापरकर्त्याशी प्रभावीपणे "खोटे" बोलले गेले. त्यांनी नमूद केले की, LLM ने बहुधा मोठ्या प्रमाणात टेलिव्हिजन रिव्ह्यू वाचले आणि त्यातून नमुने घेतले असावेत, परंतु ऑनलाइन समीक्षणांमध्ये सहसा 'स्पॉयलर' (spoilers) टाळले जातात, त्यामुळे मॉडेल त्याच्या ट्रेनिंग सेटमधील पॅटर्नमुळे दिशाभूल झाले. हा तांत्रिक बारकावा डेव्हलपर्ससमोरचे एक मुख्य आव्हान अधोरेखित करतो: LLMs हे संभाव्यता आधारित (probabilistic) इंजिन्स आहेत जे तथ्यात्मक पडताळणीपेक्षा पॅटर्न मॅचिंगला प्राधान्य देतात, ज्यामुळे अनेकदा आत्मविश्वासाने चुकीची उत्तरे दिली जातात.

डेटाची कोंडी: Garbage In, Garbage Out

अ‍ॅटवुड यांची टीका संगणक क्षेत्रातील एका चिरंतन तत्त्वावर आधारित आहे: "garbage in, garbage out" (चुकीचा डेटा, चुकीचे निकाल). त्यांनी असे निदर्शनास आणून दिले की, LLMs ला इंटरनेटवरून गोळा केलेल्या (scraped), पूर्वी प्रकाशित झालेल्या आणि संभाव्यतः कालबाह्य माहितीवर प्रशिक्षित केले जाते. जेव्हा मॉडेलला अपूर्ण, पूर्वग्रहदूषित किंवा तार्किकदृष्ट्या विसंगत डेटा दिला जातो, तेव्हा त्याचे परिणाम अनिवार्यपणे त्या त्रुटींचे प्रतिबिंब दर्शवतात.

व्यापक AI क्षेत्रासाठी, हे एक स्मरणपत्र आहे की मॉडेलचे पॅरामीटर्स वाढवणे हा डेटाच्या गुणवत्तेचा पर्याय असू शकत नाही. डेव्हलपर्स तर्कक्षमता (reasoning capabilities) वाढवण्यासाठी मोठ्या डेटासेटचा वापर करत असताना, त्या डेटासेटमधील "नॉईज" (noise)—जसे की अ‍ॅटवुड यांनी उल्लेख केल्याप्रमाणे रिव्ह्यूमध्ये कथानकाचे तपशील (plot spoilers) नसणे—अशा पद्धतशीर चुका निर्माण करू शकते ज्या Claude सारखी प्रगत आर्किटेक्चर देखील सहजपणे दूर करू शकत नाहीत.

नैतिक चिंता: संधीसाधकता विरुद्ध सर्जनशीलता

तांत्रिक मर्यादांच्या पलीकडे जाऊन, अ‍ॅटवुड यांनी AI स्वीकारण्यातील मानवी पैलूवर भाष्य केले. ज्या लोक AI वर मोठ्या प्रमाणावर अवलंबून आहेत, त्यांना त्यांनी "संधीसाधक" (opportunists) असे संबोधले, जे मूळ निर्मिती किंवा संशोधनाची कठीण प्रक्रिया टाळण्यासाठी सोपा मार्ग शोधत आहेत. न पकडले जाणारे AI-जनरेटेड कंटेंट वापरून "फसवणूक" करण्याची प्रवृत्ती ही मानवी बुद्धिमत्ता आणि सूक्ष्मतेवर अवलंबून असलेल्या उद्योगांसाठी एक वाढती चिंता असल्याचे त्यांनी चेतावणी दिली.

संस्थापकांसाठी आणि तंत्रज्ञान व्यावसायिकांसाठी हा फरक अत्यंत महत्त्वाचा आहे. AI हे उत्पादकता वाढवणारे एक शक्तिशाली साधन असू शकते, परंतु "व्यावसायिक कारणांसाठी वापरणाऱ्या लोकांनाही ते तपासावे लागते," या अ‍ॅटवुड यांच्या निरीक्षणावरून हे स्पष्ट होते की मानवी देखरेख (human oversight) हा AI वर्कफ्लोचा एक अपरिहार्य घटक आहे. पूर्णपणे स्वायत्त आणि त्रुटीमुक्त AI चे युग अजूनही दूर आहे आणि सत्याची जबाबदारी वापरकर्त्यावरच राहते.

मुख्य निष्कर्ष

  • डेटाची विश्वासार्हता अत्यंत महत्त्वाची आहे: "garbage in, garbage out" हे तत्त्व LLMs साठी सर्वात मोठा अडथळा आहे, कारण मॉडेल्स त्यांच्या ट्रेनिंग डेटाच्या गुणवत्ता आणि पूर्णतेवर अवलंबून असतात.
  • हॅल्युसिनेशनचा सापळा: जर ट्रेनिंग डेटातील मूळ पॅटर्न दिशाभूल करणारे असतील, तर Anthropic च्या Claude सारखी प्रगत मॉडेल्स देखील साध्या तथ्यात्मक माहिती मिळवण्यात अपयशी ठरू शकतात.
  • मानवी देखरेखीची आवश्यकता: AI कडे मानवी तज्ज्ञता आणि चिकित्सक विचारसरणीचा पर्याय म्हणून न पाहता, सतत पडताळणी आवश्यक असलेले एक साधन म्हणून पाहिले पाहिजे.