AI-ക്ക് റഷ്യൻ പ്രചരണങ്ങളെ പ്രതിരോധിക്കാൻ കഴിയുമോ? പുതിയ ബെഞ്ച്മാർക്ക് വിജയികളെ വെളിപ്പെടുത്തുന്നു

📅3 hours ago⏱3 min read

In this article

AI-ക്ക് റഷ്യൻ പ്രചരണങ്ങളെ പ്രതിരോധിക്കാൻ കഴിയുമോ? പുതിയ ബെഞ്ച്മാർക്ക് വിജയികളെ വെളിപ്പെടുത്തുന്നു

തെറ്റായ വിവരങ്ങൾ പ്രചരിപ്പിക്കുന്ന രീതികൾ കൂടുതൽ സങ്കീർണ്ണമായിക്കൊണ്ടിരിക്കുമ്പോൾ, ഒരു നിർണ്ണായക ചോദ്യം ഉയരുന്നു: ലാർജ് ലാംഗ്വേജ് മോഡലുകൾക്ക് (LLMs) വസ്തുതകളെയും ഭരണകൂടം നിയന്ത്രിക്കുന്ന കൃത്രിമമായ പ്രചരണങ്ങളെയും വേർതിരിച്ചറിയാൻ കഴിയുമോ? എസ്റ്റോണിയൻ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് ലാംഗ്വേജ് നടത്തിയ സമീപകാല പഠനം, 60 വ്യത്യസ്ത AI മോഡലുകൾ റഷ്യൻ പ്രചരണങ്ങളെ എത്രത്തോളം പ്രതിരോധിക്കുന്നു എന്ന് പരിശോധിച്ചുകൊണ്ട് ഇതിന് കൃത്യമായ ഒരു ഉത്തരം നൽകിയിട്ടുണ്ട്.

രീതിശാസ്ത്രം: വെബ് ആക്സസ് ഇല്ലാതെ പ്രതിരോധശേഷി പരിശോധിക്കുന്നു

ഫലങ്ങൾ വെബ് സെർച്ച് ചെയ്യാനുള്ള കഴിവല്ല, മറിച്ച് മോഡലുകളുടെ സഹജമായ യുക്തിചിന്താശേഷിയാണ് (reasoning capabilities) അളക്കുന്നത് എന്ന് ഉറപ്പാക്കാൻ, സെർച്ച് എഞ്ചിനുകളോ മറ്റ് ബാഹ്യ ടൂളുകളോ ഇല്ലാതെയാണ് ഗവേഷകർ പരീക്ഷണങ്ങൾ നടത്തിയത്. മൂന്ന് ഭാഷകളിലായി 75 ചോദ്യങ്ങൾ ഉപയോഗിച്ചാണ് ഈ ബെഞ്ച്മാർക്ക് തയ്യാറാക്കിയത്, ഇത് പ്രധാനമായും 14 വ്യത്യസ്ത പ്രചരണങ്ങളെ (propaganda narratives) ലക്ഷ്യം വെച്ചുള്ളതായിരുന്നു. നിഷ്പക്ഷമായ ശൈലി മുതൽ അങ്ങേയറ്റം പക്ഷപാതപരവും സ്വാധീനശക്തിയുള്ളതുമായ പ്രോംപ്റ്റുകൾ വരെ ഉൾപ്പെടുന്ന വിവിധ कठिनाതലുകളിലാണ് ഈ പ്രചരണങ്ങൾ അവതരിപ്പിച്ചത്.

മൂല്യനിർണ്ണയ പ്രക്രിയ വളരെ വ്യവസ്ഥാപിതമായിരുന്നു. ഓരോ മറുപടിയും 1 മുതൽ 5 വരെയുള്ള സ്കെയിലിൽ വിലയിരുത്തി; ഇതിൽ 1 എന്ന സ്കോർ എന്നാൽ മോഡൽ റഷ്യൻ പ്രചരണങ്ങൾക്ക് വഴങ്ങുകയും അവ ആവർത്തിക്കുകയും ചെയ്തു എന്നാണ് അർത്ഥമാക്കുന്നത്. ഉയർന്ന കൃത്യത ഉറപ്പാക്കുന്നതിനായി, കാലിബ്രേറ്റ് ചെയ്ത Claude Opus 4.5 ഒരു ജഡ്ജിയായി പ്രവർത്തിച്ചു. കൂടാതെ, Propastop എന്ന സംഘടനയിലെ തെറ്റായ വിവരങ്ങൾ പ്രചരിപ്പിക്കുന്നതിനെതിരെയുള്ള വിദഗ്ധർ ഈ ഫലങ്ങൾ വീണ്ടും പരിശോധിച്ചു.

തെറ്റായ വിവരങ്ങൾക്കെതിരായ പ്രതിരോധത്തിൽ Anthropic മുന്നിൽ

വിവിധ AI സേവനദാതാക്കൾ തമ്മിലുള്ള പ്രവർത്തനക്ഷമതയിലെ വലിയ വ്യത്യാസം ഈ ഫലങ്ങൾ ചൂണ്ടിക്കാട്ടുന്നു. തെറ്റായ വിവരങ്ങളെ പ്രതിരോധിക്കുന്നതിൽ Anthropic-ന്റെ Claude കുടുംബമാണ് വ്യവസായ രംഗത്തെ മുൻനിരക്കാരായി ഉയർന്നുവന്നത്. പ്രത്യേകിച്ച്, Claude Fable 5 (നിലവിൽ യുഎസിന് പുറത്ത് നിയന്ത്രിതമാണ്) 95.2 എന്ന ഉയർന്ന സ്കോർ നേടി ഒന്നാമതെത്തി. തൊട്ടുപിന്നാലെ Claude Opus 4.7 ആണ് വന്നത്, ഇത് സുരക്ഷയിലും വസ്തുതാപരമായ സത്യസന്ധതയിലും നിലവിലെ സുവർണ്ണ മാനദണ്ഡമായി Anthropic-ന്റെ സ്ഥാനം ഉറപ്പിച്ചു.

Nvidia-യുടെ Nemotron 3, Alibaba-യുടെ Qwen 3.6 Plus എന്നിവയും ശ്രദ്ധേയമായ പ്രകടനം കാഴ്ചവെച്ചു. ഇവ രണ്ടും കൃത്രിമമായ പ്രചരണങ്ങളെ തിരിച്ചറിയാനും നിരസിക്കാനുമുള്ള ശക്തമായ കഴിവ് പ്രകടിപ്പിച്ചു.

Mistral-ന്റെ ബലഹീനതയും യൂറോപ്യൻ AI-യുടെ വെല്ലുവിളികളും

യുഎസ്, ചൈനീസ് മോഡലുകൾ കരുത്ത് തെളിയിച്ചപ്പോൾ, ഫ്രഞ്ച് AI കരുത്തായ Mistral-ന് ഈ ഫലങ്ങൾ ഒരു തിരിച്ചടിയായിരുന്നു. അടുത്തിടെ പുറത്തിറങ്ങിയ Medium 3.5 ഉൾപ്പെടെയുള്ള Mistral മോഡലുകൾ ബെഞ്ച്മാർക്കിൽ ഏറ്റവും പിന്നിലായി. Mistral-ൽ 36.67 ശതമാനം തെറ്റായ വിവരങ്ങൾ (misinformation) കണ്ടെത്തിയ മുൻപത്തെ Newsguard പഠനത്തിന്റെ ഫലങ്ങളുമായി ഈ കണ്ടെത്തലുകൾ ചേർന്നുനിൽക്കുന്നു.

Mistral-ന്റെ തന്ത്രപരമായ സ്ഥാനം കണക്കിലെടുക്കുമ്പോൾ ഈ സുരക്ഷാ വീഴ്ച ഏറെ പ്രാധാന്യമർഹിക്കുന്നു. യുഎസ് അധിഷ്ഠിതവും ചൈനീസ് AI സേവനദാതാക്കളും നൽകുന്നതിന് പകരമായി പ്രധാന യൂറോപ്യൻ ബദലായി പ്രവർത്തിക്കുന്ന ഈ കമ്പനി, നിലവിൽ 20 ബില്യൺ യൂറോ മൂല്യത്തിൽ 3 ബില്യൺ യൂറോയുടെ ഫണ്ടിംഗ് റൗണ്ടിനായി ചർച്ചകൾ നടത്തിക്കൊണ്ടിരിക്കുകയാണ്. വിശ്വസനീയമായ ഒരു സോവറിൻ AI സേവനദാതാവായി സ്വയം അടയാളപ്പെടുത്തുന്ന ഒരു കമ്പനിയെ സംബന്ധിച്ചിടത്തോളം, പ്രചരണങ്ങളെ (propaganda) നിരന്തരമായി പ്രതിരോധിക്കാൻ കഴിയാത്തത് വലിയൊരു സൽപ്പേരിനെ ബാധിക്കുന്നതും സാങ്കേതികവുമായ വെല്ലുവിളിയാണ്.

ഇത് AI മേഖലയിൽ എന്തിനാണ് പ്രസക്തമാകുന്നത്

ഈ ബെഞ്ച്മാർക്കിന്റെ പ്രസക്തി വെറും കൃത്യതയുടെ (accuracy) സ്കോറുകൾക്ക് അപ്പുറമാണ്. ഭാവിയിലെ മോഡലുകളുടെ യുക്തിയെ 'വിഷലിപ്തമാക്കാൻ' (poison) ലക്ഷ്യമിട്ട്, "Pravda" പോലുള്ള റഷ്യൻ ഡിസിൻഫോർമേഷൻ ശൃംഖലകൾ ദശലക്ഷക്കണക്കിന് വ്യാജ ലേഖനങ്ങൾ ഉപയോഗിച്ച് AI ട്രെയിനിംഗ് സെറ്റുകൾ നിറയ്ക്കാൻ സജീവമായി ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. ജർമ്മൻ ഫെഡറൽ തിരഞ്ഞെടുപ്പുകളെ സ്വാധീനിക്കാൻ ChatGPT ഉപയോഗിച്ചുള്ള റഷ്യൻ പ്രചാരണങ്ങൾ OpenAI നേരത്തെ തന്നെ കണ്ടെത്തി തടഞ്ഞതുകൊണ്ട് തന്നെ, LLM-കളുടെ വിശ്വാസ്യതയ്ക്കായുള്ള പോരാട്ടം ആഗോള വിവര സുരക്ഷയിലെ (information security) ഒരു പ്രധാന വിഷയമായി മാറിക്കൊണ്ടിരിക്കുകയാണ്.

പ്രധാന കാര്യങ്ങൾ

Anthropic-ന്റെ ആധിപത്യം: പരിശോധിക്കപ്പെട്ട മറ്റ് എല്ലാ മോഡലുകളേക്കാളും പ്രചരണങ്ങളെ പ്രതിരോധിക്കുന്നതിൽ Claude മോഡലുകൾ, പ്രത്യേകിച്ച് Claude Fable 5, മികച്ച പ്രകടനം കാഴ്ചവെച്ചു.
Mistral സമ്മർദ്ദത്തിൽ: ഉയർന്ന മൂല്യവും യൂറോപ്പിലെ പ്രാധാന്യവും ഉണ്ടായിരുന്നിട്ടും, തെറ്റായ വിവരങ്ങളെ (misinformation) കൈകാര്യം ചെയ്യുന്നതിൽ Mistral മോഡലുകൾ വലിയ വെല്ലുവിളി നേരിടുകയും യുഎസ്, ചൈനീസ് എതിരാളികളേക്കാൾ പിന്നിലാവുകയും ചെയ്തു.
ട്രെയിനിംഗ് ഭീഷണി: വൻതോതിലുള്ള ഡിസിൻഫോർമേഷൻ പ്രചാരണങ്ങളിലൂടെ LLM ഔട്ട്പുട്ടുകളെ സ്വാധീനിക്കാൻ രാജ്യങ്ങൾ പിന്തുണയ്ക്കുന്ന ഏജന്റുകൾ ശ്രമിക്കുന്ന സാഹചര്യത്തിൽ, ശക്തമായ പ്രതിരോധ സംവിധാനങ്ങളുടെ അടിയന്തര ആവശ്യം ഈ ബെഞ്ച്മാർക്ക് ചൂണ്ടിക്കാണിക്കുന്നു.

AI-ക്ക് റഷ്യൻ പ്രചരണങ്ങളെ പ്രതിരോധിക്കാൻ കഴിയുമോ? പുതിയ ബെഞ്ച്മാർക്ക് വിജയികളെ വെളിപ്പെടുത്തുന്നു

AI-ക്ക് റഷ്യൻ പ്രചരണങ്ങളെ പ്രതിരോധിക്കാൻ കഴിയുമോ? പുതിയ ബെഞ്ച്മാർക്ക് വിജയികളെ വെളിപ്പെടുത്തുന്നു

രീതിശാസ്ത്രം: വെബ് ആക്സസ് ഇല്ലാതെ പ്രതിരോധശേഷി പരിശോധിക്കുന്നു

തെറ്റായ വിവരങ്ങൾക്കെതിരായ പ്രതിരോധത്തിൽ Anthropic മുന്നിൽ

Mistral-ന്റെ ബലഹീനതയും യൂറോപ്യൻ AI-യുടെ വെല്ലുവിളികളും

ഇത് AI മേഖലയിൽ എന്തിനാണ് പ്രസക്തമാകുന്നത്

പ്രധാന കാര്യങ്ങൾ

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

യുഎസ് സർക്കാർ ഒരു എഐ മോഡൽ പിൻവലിച്ചു

AI Red Teaming: Securing Large Language Models Against Adversarial Risks

Probably Raises $9M to Combat LLM Hallucinations with Precision Engineering