LLMs ला त्यांचे स्रोत खरे आहेत का असे विचारणे थांबवा
तुम्ही AI ला स्रोतांची यादी विचारता. ते तुम्हाला शीर्षके, लेखक आणि DOIs देतात. सर्व काही अगदी योग्य वाटते. पण नंतर तुम्हाला समजते की त्यातील अर्धे अस्तित्वातच नाहीत.
DOI कशाकडेच नेत नाही. तो शोधनिबंध कधी लिहिलाच गेला नव्हता.
तुमची नैसर्गिक प्रवृत्ती मॉडेलला विचारण्याची असते: "तुला खात्री आहे का की हे खरे आहे?" AI 'हो' म्हणेल. ते नेहमी 'हो' म्हणते. तुम्ही एका बनावटगिरी करणाऱ्याला (forger) त्याचे काम अस्सल आहे का असे विचारत आहात.
LLM शोधनिबंधांच्या डेटाबेसचा वापर करत नाही. ते केवळ एका क्रमाने येणारा पुढचा शब्द वर्तवते (predict करते). AI साठी, संदर्भ (citation) म्हणजे केवळ एक नमुना (pattern) आहे. त्याला माहित असते की संदर्भासाठी नाव, वर्ष आणि दहा अंकांची आवश्यकता असते. ते सत्याचा आधार न घेता केवळ एका खऱ्या स्रोताचे स्वरूप हुबेहूब कॉपी करते.
मॉडेलला स्वतःचे काम पडताळून पाहण्यास सांगणे थांबवा. ते दोन कारणांमुळे करू शकत नाही:
- त्याच्याकडे कोणत्याही थेट (live) नोंदणीकृत डेटाबेसचा (registry) प्रवेश नाही. ते केवळ विश्वासार्ह वाटणारा मजकूर तयार करते.
- जे आधीच म्हटले आहे, त्याचीच पुष्टी करण्याकडे त्याचा कल असतो.
माहिती पडताळण्यासाठी तुम्ही बाह्य साधनांचा (external tools) वापर केला पाहिजे. तांत्रिक लेखनासाठी येथे तीन-टप्प्यांची फिल्टर प्रक्रिया दिली आहे:
अस्तित्व (Existence). Crossref सारख्या API द्वारे DOI तपासा. जर API ने 404 एरर दाखवला, तर तो स्रोत बनावट आहे. तयार केलेला DOI कधीही रिझॉल्व्ह (resolve) होणार नाही.
विश्वासार्हता (Credibility). एखादा स्रोत अस्तित्वात असू शकतो पण तरीही तो निरुपयोगी असू शकतो. जर्नल किंवा कॉन्फरन्स मान्यताप्राप्त आहे का ते तपासा. वैध DOI म्हणजे गुणवत्तेची हमी नाही.
अचूकता (Fidelity). तो शोधनिबंध खरोखरच तुमच्या दाव्याला समर्थन देतो का? तुम्हाला मजकूर वाचणे आवश्यक आहे. सारांश (abstract) सर्व तपशील कव्हर करतो असे गृहीत धरू नका. चुकीच्या दाव्यासाठी वापरलेला खरा संदर्भ देखील एक खोटेपणाच आहे.
हे केवळ शैक्षणिक शोधनिबंधांपुरते मर्यादित नाही. जर AI ने JIRA तिकीट, CVE नंबर किंवा कोड कमिटचा (code commit) संदर्भ दिला, तर तुम्हाला ते प्रत्यक्ष प्रणालीमध्ये तपासावे लागेल.
AI आर्किटेक्चरमधील सर्वात मोठी चूक म्हणजे मॉडेलवर स्वतःची पडताळणी करण्यासाठी विश्वास ठेवणे. पडताळणी ही एक स्वतंत्र पायरी असणे आवश्यक आहे. वापरकर्त्याला निकाल दिसण्यापूर्वी ती बाह्य सत्य स्रोताशी (external source of truth) जोडलेली असावी.
मॉडेल्सना अधिक प्रामाणिक बनवण्याचा प्रयत्न करू नका. ते मजकूर जनरेटर्स आहेत आणि ते नेहमीच हॅलुसिनेट (hallucinate) करतील. त्याऐवजी, त्यांच्या शब्दावर विश्वास ठेवणे थांबवा.
ज्या संदर्भाची तुम्ही नोंदणीकृत डेटाबेसद्वारे पडताळणी करू शकत नाही, तो संदर्भ नाही. तो केवळ लॅब कोट घातलेला एक अंदाज आहे.
Source: https://dev.to/ohugonnot/stop-asking-the-llm-whether-its-source-is-real-2oaa
Optional learning community: https://t.me/GyaanSetuAi
