AI ரஷ்யன் பிரச்சண்டாவை எதிர்க்க முடியுமா? புதிய அளவுகோல் வெற்றியாளர்களை வெளிப்படுத்துகிறது

தவறான தகவல் பிரச்சாரங்கள் (disinformation campaigns) மிகவும் நுணுக்கமானதாகி வரும் நிலையில், ஒரு முக்கியமான கேள்வி எழுகிறது: பெரிய மொழி மாதிரிகளால் (LLMs) உண்மைகளையும், அரசு ஆதரவு பெற்ற கையாளுதல்களையும் (state-sponsored manipulation) வேறுபடுத்திப் பார்க்க முடியுமா? எஸ்டோனிய மொழி நிறுவனம் (Institute of the Estonian Language) சமீபத்தில் நடத்திய ஆய்வு, இலக்கு வைக்கப்பட்ட ரஷ்ய பிரச்சண்டாவிற்கு எதிராக 60 வெவ்வேறு AI மாதிரிகளின் மீள்தன்மையைச் சோதித்து, ஒரு துல்லியமான பதிலைக் கொடுத்துள்ளது.

ஆய்வு முறை: இணைய அணுகல் இன்றி மீள்தன்மையைச் சோதித்தல்

முடிவுகள், மாதிரிகளின் நேரலை இணையத் தேடல் திறனை அளவிடுவதைத் தவிர்த்து, அவற்றின் உள்ளார்ந்த பகுத்தறியும் திறனை மட்டுமே அளவிடுவதை உறுதி செய்வதற்காக, ஆராய்ச்சியாளர்கள் தேடுபொறிகள் அல்லது வெளிப்புறக் கருவிகள் ஏதுமின்றி இந்தச் சோதனைகளை நடத்தினர். இந்த அளவுகோல் (benchmark) மூன்று மொழிகளில் 75 கேள்விகளைப் பயன்படுத்தியது, இது குறிப்பாக 14 தனித்துவமான பிரச்சண்டக் கருத்துக்களை (propaganda narratives) இலக்கு வைத்திருந்தது. இந்த கருத்துக்கள் நடுநிலையான சொற்றொடர்கள் முதல் மிகவும் ஒருதலைப்பட்சமான மற்றும் கையாளுதல் நோக்கம் கொண்ட தூண்டுதல்கள் (prompts) வரை பல்வேறு கடினத்தன்மை நிலைகளில் முன்வைக்கப்பட்டன.

மதிப்பீட்டு முறை மிகவும் கட்டமைக்கப்பட்டதாக இருந்தது. ஒவ்வொரு பதிலும் 1 முதல் 5 வரையிலான அளவில் மதிப்பிடப்பட்டது, இதில் 1 என்ற மதிப்பெண் என்பது அந்த மாதிரி ரஷ்யக் கருத்துக்களை ஏற்றுக்கொண்டு அவற்றை மீண்டும் கூறியதைக் குறிக்கிறது. அதிக துல்லியத்தைப் பேணுவதற்காக, சரிசெய்யப்பட்ட (calibrated) Claude Opus 4.5 ஒரு நடுவராகச் செயல்பட்டது, மேலும் இந்த முடிவுகள் Propastop அமைப்பின் தவறான தகவல் நிபுணர்களால் மேலும் சரிபார்க்கப்பட்டன.

தவறான தகவல் தடுப்பில் முன்னணியில் Anthropic

இந்த முடிவுகள் பல்வேறு AI நிறுவனங்களுக்கு இடையிலான குறிப்பிடத்தக்க செயல்திறன் இடைவெளியை வெளிப்படுத்துகின்றன. தவறான தகவிகளை எதிர்த்து நிற்கும் விஷயத்தில் Anthropic நிறுவனத்தின் Claude குடும்பம் தொழில்துறையின் முன்னணியாளராக உருவெடுத்தது. குறிப்பாக, Claude Fable 5 (இது தற்போது அமெரிக்காவிற்கு வெளியே கட்டுப்படுத்தப்பட்டுள்ளது) 95.2 என்ற மிக உயர்ந்த மதிப்பெண்ணைப் பெற்றது. அதைத் தொடர்ந்து Claude Opus 4.7 வந்ததோடு, பாதுகாப்பு மற்றும் உண்மைத் தன்மைக்கான தற்போதைய சிறந்த தரநிலையாக (gold standard) Anthropic தனது நிலையை உறுதிப்படுத்திக் கொண்டது.

Nvidia நிறுவனத்தின் Nemotron 3 மற்றும் Alibaba நிறுவனத்தின் Qwen 3.6 Plus ஆகியவை மற்ற குறிப்பிடத்தக்க செயல்திறன் கொண்டவையாக இருந்தன, இவை இரண்டும் கையாளுதல் நோக்கம் கொண்ட கருத்துக்களை அடையாளம் கண்டு நிராகரிப்பதில் வலுவான திறனை வெளிப்படுத்தின.

Mistral-ன் பலவீனம் மற்றும் ஐரோப்பிய AI-க்கான சவால்கள்

அமெரிக்க மற்றும் சீன மாதிரிகள் வலிமையைக் காட்டினாலும், பிரான்சின் முன்னணி AI நிறுவனமான Mistral-க்கு இந்த முடிவுகள் ஒரு பின்னடைவாக அமைந்தன. Mistral-ன் சமீபத்திய Medium 3.5 உட்பட அதன் மாதிரிகள், இந்த அளவுகோலில் கடைசி மூன்றில் ஒரு பகுதியில் (bottom third) இடம் பெற்றன. இந்த கண்டுபிடிப்புகள், Mistral நிறுவனத்திற்கு 36.67 சதவீத தவறான தகவல் விகிதத்தைக் குறிப்பிட்ட முந்தைய Newsguard ஆய்வின் முடிவுகளை மீண்டும் உறுதிப்படுத்துகின்றன.

Mistral-ன் மூலோபாய நிலையை கருத்தில் கொள்ளும்போது, இந்த பலவீனம் மிகவும் முக்கியமானது. அமெரிக்க மற்றும் சீன AI வழங்குநல்களுக்கு மாற்றாக முதன்மையான ஐரோப்பிய நிறுவனமாக இருக்கும் இது, தற்போது €20 பில்லியன் மதிப்பீட்டில் €3 பில்லியன் நிதித் தொகுப்பிற்கான பேச்சுவார்த்தையில் ஈடுபட்டுள்ளது. ஒரு நம்பகமான இறையாண்மை கொண்ட AI வழங்குநராக தன்னை நிலைநிறுத்திக் கொள்ளும் ஒரு நிறுவனத்திற்கு, பிரச்சாரங்களைத் தொடர்ந்து தடுத்து நிறுத்த முடியாதது, ஒரு குறிப்பிடத்தக்க நற்பெயர் மற்றும் தொழில்நுட்ப சவாலை ஏற்படுத்துகிறது.

இது AI சூழலுக்கு ஏன் முக்கியமானது

இந்த பெஞ்ச்மார்க்கின் முக்கியத்துவம் வெறும் துல்லியமான மதிப்பெண்களுக்கு அப்பாற்பட்டது. "Pravda" போன்ற ரஷ்யத் தவறான தகவல் வலைப்பின்னல்கள், எதிர்கால மாடல்களின் தர்க்கத்தை "நச்சுத்தன்மை" ஆக்குவதற்காக, மில்லியன் கணக்கான போலியான கட்டுரைகளை AI பயிற்சித் தொகுப்புகளில் திணிக்க தீவிரமாக செயல்பட்டு வருகின்றன. ஜெர்மனியின் கூட்டாட்சித் தேர்தல்களில் தாக்கத்தை ஏற்படுத்த ChatGPT-ஐப் பயன்படுத்திய ரஷ்ய பிரச்சாரங்களை OpenAI ஏற்கனவே கண்டறிந்து முடக்கியுள்ள நிலையில், LLM-களின் நம்பகத்தன்மைக்கான போராட்டம் உலகளாவிய தகவல் பாதுகாப்பில் ஒரு முக்கியப் பிரச்சினையாக மாறி வருகிறது.

முக்கியக் குறிப்புகள்