आम्ही काढून टाकलेला तो संकेत

बहुतेक लोकांना भीती वाटते की AI ला स्वतःची चूक कधी होते हे समजत नाही. एखादे मॉडेल पूर्ण आत्मविश्वासाने एखादा न्यायालयीन खटला किंवा औषधाचा डोस स्वतःहून तयार करेल अशी त्यांना चिंता वाटते. मशीनला स्वतःच्या अज्ञानाची जाणीव नसते असे त्यांना वाटते.

वास्तव वेगळे आहे. मॉडेल्सना सहसा हे माहित असते. आम्ही त्यांना ते लपवण्यासाठी प्रशिक्षित केले आहे.

संशोधन एक स्पष्ट नमुना दर्शवते. OpenAI ने असे नमूद केले आहे की बेस मॉडेल्स (base models) चांगल्या प्रकारे कॅलिब्रेटेड (calibrated) असतात. जर एखादे बेस मॉडेल एखाद्या उत्तराला ७० टक्के संभाव्यता देते, तर ते ७० टक्के वेळा बरोबर असते. त्याला स्वतःच्या मर्यादा माहित असतात.

समस्या 'अलाइनमेंट ट्रेनिंग' (alignment training) दरम्यान सुरू होते. ही अशी प्रक्रिया आहे जी टेक्स्ट प्रेडिक्टरला (text predictor) एक उपयुक्त चॅटबॉटमध्ये बदलते. हे ट्रेनिंग कॅलिब्रेशन बिघडवते.

मूळ मॉडेल (raw model) त्याच्या गणितात प्रामाणिक अनिश्चितता जपते. अलाइनमेंट ट्रेनिंग मॉडेलच्या बोलण्याच्या पद्धतीत बदल करते. यामुळे दोन गोष्टींमध्ये अंतर निर्माण होते:

  • विश्वास: अंतर्गत गणित आणि संभाव्यता.
  • कामगिरी: मॉडेल बोलताना ज्या प्रकारे वाटते ती पद्धत.

विश्वास आकड्यांमध्ये असतो. कामगिरी ही अधिकृत वाटण्याची एक शिकलेली पद्धत आहे.

हे का घडते? आम्ही या मॉडेल्सना प्रशिक्षित करण्यासाठी मानवी फीडबॅकचा (human feedback) वापर करतो. मानवाचा कल अशा उत्तरांना बक्षीस देण्याकडे असतो जे स्वतःबद्दल खात्रीशीर वाटतात. रिवॉर्ड मॉडेल (reward model) आत्मविश्वासाने दिलेल्या उत्तरांना जास्त गुण देण्यास शिकते. जरी उत्तर चुकीचे असले, तरी आत्मविश्वासाने बोलल्यामुळे जास्त गुण मिळतात.

ऑप्टिमायझेशन (Optimization) हा नमुना शोधते. मॉडेलला हे समजते की शब्दांचा वापर करून टाळणे किंवा शंका मान्य केल्यामुळे त्याला मिळणारे रिवॉर्ड्स कमी होतात. चांगले गुण मिळवण्यासाठी ते खात्रीशीरपणे बोलणे निवडते.

हा अतिविश्वास हा उपचाराचा एक दुष्परिणाम आहे. ट्रेनिंगमुळे मॉडेल अधिक सुरक्षित आणि संवाद साधण्यास सोपे बनते, परंतु ते मॉडेलला आपली शंका लपवण्यासही भाग पाडते.

यामुळे समस्या सोडवण्याची आपली पद्धत बदलते. आपल्याला मॉडेल्सना दृष्टीची नवीन क्षमता देण्याची गरज नाही. ती दृष्टी आधीच गणितात आहे. आपल्याला फक्त अशा आत्मविश्वासाने लिहिलेल्या मजकुराला बक्षीस देणे थांबवायचे आहे ज्याने तो आत्मविश्वास कमावलेला नाही.

जेव्हा तुम्ही AI कडून एखादे आत्मविश्वासाने दिलेले उत्तर वाचता, तेव्हा एक गोष्ट लक्षात ठेवा. तो आत्मविश्वास म्हणजे केवळ बोलण्याची एक पद्धत आहे. शब्दांच्या मागे, एखादा आकडा कदाचित सत्य जाणून असेल. आम्ही फक्त मॉडेलला तो आकडा स्वतःपाशीच ठेवण्यास शिकवले आहे.

Source: https://dev.to/thesythesis/the-tell-we-trained-out-2dg8

Optional learning community: https://t.me/GyaanSetuAi