AI அனுமானங்களை உண்மையாகத் தவறாகக் குறியிடுவதைத் தடுப்பது எப்படி
AI ஆராய்ச்சி ஏஜெண்டுகள் (agents) பெரும்பாலும் உண்மைகளையும் யூகங்களையும் கலந்து விடுகின்றன. ஒரு வலைப்பக்கம் சந்தை மதிப்பைத் தெரிவிக்கலாம். அதன் பிறகு, அந்த ஏஜெண்ட் சந்தை வேகமாக வளர்ந்து வருவதாக முடிவு செய்யலாம். இறுதி உரையில் இந்த இரண்டு கூற்றுகளும் ஒரே மாதிரியாகத் தோன்றும். தரவு மற்றும் கருத்துக்களின் இந்த கலவை ஆபத்தானது.
சிறந்த ப்ராம்ப்ட்கள் (prompts) மூலம் இதைச் சரிசெய்ய முடியாது. ப்ராம்ப்ட்கள் நிகழ்தகவு சார்ந்தவை (probabilistic). அழுத்தமான சூழலில், மாடல் யூகிக்கத் தொடங்கும்.
இதற்கான தீர்வு கட்டமைப்பு சார்ந்தது (structural). முடிவெடுக்கும் பணியை LLM-லிருந்து உங்கள் குறியீட்டிற்கு (code) மாற்றவும்.
வேலையை இரண்டு பகுதிகளாகப் பிரிக்கவும்:
LLM செய்வது:
- ஒரு பக்கத்திலிருந்து கூற்றுகளை (claims) பிரித்தெடுத்தல்.
- உரையைச் சுருக்குதல்.
Deterministic code செய்வது:
- கூற்றுகளுக்கு மதிப்பெண் வழங்குதல்.
- ஆதாரங்களைச் சரிபார்த்தல்.
- கூற்றுகளை FACT அல்லது INFERENCE என வகைப்படுத்துதல்.
- தரவு புதியதா என்பதைத் தீர்மானித்தல்.
ஒரு கூற்று கடுமையான விதிகளைப் பூர்த்தி செய்தால் மட்டுமே FACT என்ற லேபிளைப் பெறும். உதாரணமாக, அது இரண்டு சுதந்திரமான ஆதாரங்களில் இருந்தோ அல்லது ஒரு அதிகாரப்பூர்வ API-லிருந்தோ வர வேண்டும். மற்ற அனைத்தும் INFERENCE ஆக மாறும்.
இந்த pipeline-ஐப் பயன்படுத்தவும்:
- PLAN: கேள்வியை துணை-வினவல்களாக (sub-queries) மாற்றவும்.
- HARVEST: பல வழிகளில் இருந்து தரவைச் சேகரிக்கவும்.
- NORMALIZE: கட்டமைக்கப்பட்ட கூற்றுகளைப் பிரித்தெடுக்க LLM-ஐப் பயன்படுத்தவும். இது மட்டுமே LLM-ஐப் பயன்படுத்தும் படியாகும்.
- CORROBORATE: கூற்றுகளைக் குழுவாக்கி, சுதந்திரமான ஆதாரங்களின் எண்ணிக்கையைக் கணக்கிடவும்.
- SCORE: லேபிள்களை ஒதுக்க விதிகளைப் பயன்படுத்தவும்.
- RENDER: உண்மைகள், அனுமானங்கள் மற்றும் விடுபட்ட தகவல்களைக் காட்டவும்.
சுதந்திரமான ஆதாரங்களே முக்கியம். ஒரு வலைப்பதிவு (blog) மற்றொரு வலைப்பதிவைக் மேற்கோள் காட்டுவது என்பது இரண்டு ஆதாரங்கள் அல்ல. ஒரு உண்மையை உறுதிப்படுத்த உங்களுக்குத் தனித்துவமான டொமைன்கள் (domains) அல்லது ஒரு அதிகாரப்பூர்வ API தேவை.
நம்பகமான ஏஜெண்டிற்கு இந்த விதிகளைப் பின்பற்றவும்:
- escalation முறையைப் பயன்படுத்தவும்: முதலில் இணையத் தேடலை (web search) முயற்சிக்கவும். முதல் படி தோல்வியடைந்தால் மட்டுமே செய்தித் தேடல் அல்லது கல்விசார் தேடலுக்குச் செல்லவும்.
- freshness-ஐக் கண்காணிக்கவும்: பழைய தரவை stale எனக் குறியிடவும். பழைய உண்மைகள் தற்போதையவை போலக் கருதப்பட அனுமதிக்காதீர்கள்.
- இடைவெளிகளைக் காட்டவும்: உங்களால் கண்டறிய முடியாதவற்றைப் பட்டியலிடவும். ஒரு தகவல் விடுபடுவது தோல்வியாகும்.
- மறுஉற்பத்தித் திறனை (reproducibility) உறுதி செய்யவும்: ஒரே வினவல் ஒவ்வொரு முறையும் ஒரே லேபிள்களையே வழங்க வேண்டும். லேபிள்கள் மாறினால், LLM தரவிற்கு மதிப்பெண் வழங்குகிறது என்று அர்த்தம். அந்த LLM அழைப்பிற்குப் பதிலாக ஒரு function-ஐப் பயன்படுத்தவும்.
இந்த முறை மாடல் சிறப்பாகச் செய்யும் வேலையைச் செய்ய அனுமதிக்கிறது: வாசித்தல் மற்றும் பிரித்தெடுத்தல். இது எது உண்மை என்று மாடல் முடிவு செய்வதைத் தடுக்கிறது.
Optional learning community: https://t.me/GyaanSetuAi
