AI തിരിച്ചറിയാനുള്ള സംവിധാനങ്ങളുടെ വിശ്വാസ്യതയിലെ പ്രതിസന്ധി: ചില ടൂളുകൾ വിജയിക്കുമ്പോൾ മറ്റു ചിലവ പൂർണ്ണമായും പരാജയപ്പെടുന്നു

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialകഴിഞ്ഞ ആഴ്‌ച3min read

AI തിരിച്ചറിയാനുള്ള സംവിധാനങ്ങളുടെ വിശ്വാസ്യതയിലെ പ്രതിസന്ധി: ചില ടൂളുകൾ വിജയിക്കുമ്പോൾ മറ്റു ചിലവ പൂർണ്ണമായും പരാജയപ്പെടുന്നു

In this article

AI ഡിറ്റക്ഷൻ വിശ്വാസ്യതയിലെ പ്രതിസന്ധി: ചില ടൂളുകൾ വിജയിക്കുമ്പോൾ മറ്റുള്ളവ പൂർണ്ണമായും പരാജയപ്പെടുന്നു

Authors Guild നടത്തിയ സമീപകാല പഠനം AI റൈറ്റിംഗ് ഡിറ്റക്ടറുകളുടെ (AI writing detectors) വിശ്വാസ്യതയിൽ വലിയ വ്യത്യാസമുണ്ടെന്ന് വെളിപ്പെടുത്തിയിരിക്കുന്നു. ചില ടൂളുകൾ വളരെ കൃത്യതയുള്ളതാണെങ്കിലും മറ്റുള്ളവ അടിസ്ഥാനപരമായി പിഴവുകൾ നിറഞ്ഞതാണെന്ന് ഈ പഠനം വ്യക്തമാക്കുന്നു. തങ്ങളുടെ രചനകൾ മനുഷ്യർ തയ്യാറാക്കിയതാണെന്ന് തെളിയിക്കേണ്ടി വരുന്ന പ്രൊഫഷണൽ എഴുത്തുകാരുടെ ഉപജീവനത്തിന് ഈ അസ്ഥിരത വലിയ ഭീഷണിയുയർത്തുന്നു.

പ്രകടനത്തിലെ വ്യത്യാസം: പൂർണ്ണത മുതൽ പൂർണ്ണ പരാജയം വരെ

ജനറേറ്റീവ് AI ഒരു മുഖ്യധാരാ പ്രതിഭാസമായി മാറുന്നതിന് വർഷങ്ങൾക്ക് മുമ്പ്, അതായത് 2020-നും 2022-നും ഇടയിൽ പ്രസിദ്ധീകരിച്ച പത്ത് ലേഖനങ്ങൾ ഉപയോഗിച്ച് Authors Guild കർശനമായ ഒരു പരീക്ഷണം നടത്തി. "AI-ക്ക് മുമ്പുള്ള" മനുഷ്യർ എഴുതിയ ടെക്സ്റ്റുകൾ ഉപയോഗിച്ചതിലൂടെ, തെറ്റായ പോസിറ്റീവ് നിരക്കുകൾ (false positive rates) അളക്കുന്നതിന് കൃത്യമായ ഒരു അടിസ്ഥാനം ഈ പഠനം നൽകി.

ഫലങ്ങൾ വിപരീതമായിരുന്നു. Pangram, Grammarly എന്നിവ ഏറ്റവും വിശ്വസനീയമായ ടൂളുകളായി ഉയർന്നുവന്നു; അവ മനുഷ്യർ എഴുതിയ ഓരോ ടെക്സ്റ്റും കൃത്യമായി മനുഷ്യർ എഴുതിയതാണെന്ന് തിരിച്ചറിഞ്ഞു (0.0% AI സ്കോർ). Originality.ai ഉം മികച്ച പ്രകടനം കാഴ്ചവെച്ചു, എല്ലാ മേഖലകളിലും ഉയർന്ന കൃത്യത നിലനിർത്തി.

ഇതിന് നേർവിപരീതമായി, Sidekicker.ai വലിയ തോതിൽ പരാജയപ്പെട്ടു. പരീക്ഷണത്തിലെ ഓരോ മനുഷ്യർ എഴുതിയ ലേഖനവും "മിക്കവാറും AI നിർമ്മിതം" (mostly AI-generated) എന്ന് അടയാളപ്പെടുത്തപ്പെട്ടു; രണ്ട് പ്രത്യേക ലേഖനങ്ങൾക്ക് 100% AI സ്കോർ പോലും ലഭിച്ചു. ZeroGPT ഉം വിശ്വസനീയമല്ലെന്ന് തെളിഞ്ഞു. മനുഷ്യർ എഴുതിയതാണെന്ന് തർക്കമില്ലാത്ത ലേഖനങ്ങൾക്ക് പോലും ഇത് പലപ്പോഴും ഉയർന്ന AI ശതമാനം റിപ്പോർട്ട് ചെയ്തു; ഉദാഹരണത്തിന്, "Erdrich Pulitzer Prize" എന്ന ലേഖനത്തിന് 76.3% AI സാധ്യതയാണെന്ന് ഇത് രേഖപ്പെടുത്തി.

പ്രൊഫഷണൽ റൈറ്റിംഗിലെ വൈരുദ്ധ്യം

ഒരു ആശങ്കാജനകമായ സാങ്കേതിക വൈരുദ്ധ്യമാണ് ഈ പഠനം ചൂണ്ടിക്കാണിക്കുന്നത്: ഒരു മനുഷ്യ എഴുത്തുകാരൻ എത്രത്തോളം വൈദഗ്ധ്യമുള്ളവനാണോ, അത്രത്തോളം കൂടുതൽ സാധ്യതയാണ് പിഴവുകളുള്ള ഡിറ്റക്ടറുകൾ അവരെ AI എന്ന് തെറ്റായി അടയാളപ്പെടുത്താൻ. വ്യക്തത, ലാളിത്യം, കൃത്യത എന്നിവയിലാണ് പ്രൊഫഷണൽ റൈറ്റിംഗ് അധിഷ്ഠിതമായിരിക്കുന്നത്—ഇവയാണ് Large Language Models (LLMs) അനുകരിക്കാൻ പരിശീലിപ്പിക്കപ്പെട്ടിരിക്കുന്ന അതേ സ്റ്റാറ്റിസ്റ്റിക്കൽ പാറ്റേണുകൾ.

AI മോഡലുകൾ ഉയർന്ന നിലവാരമുള്ള മനുഷ്യരുടെ ഗദ്യങ്ങളിൽ (prose) പരിശീലിപ്പിക്കപ്പെട്ടതിനാൽ, വൈദഗ്ധ്യമുള്ള ഒരു എഴുത്തുകാരന്റെ വാചകത്തിന്റെ "വിരലടയാളം" (fingerprint) ഒരു AI നിർമ്മിത വാചകത്തിന് സമാനമായി തോന്നാം. ഇത് വലിയ പ്രത്യാഘാതങ്ങൾ ഉണ്ടാക്കുന്ന ഒരു സാഹചര്യമാണ് സൃഷ്ടിക്കുന്നത്; പതിറ്റാണ്ടുകളോളം തങ്ങളുടെ കഴിവ് മെച്ചപ്പെടുത്തിയ ഒരു എഴുത്തുകാരന്, Sidekicker പോലുള്ള ഒരു ടൂളിൽ നിന്നുള്ള തെറ്റായ പോസിറ്റീവ് റിപ്പോർട്ട് കാരണം കരാറുകൾ നഷ്ടപ്പെടാനോ സൽപ്പേര് തകരാനോ ഇടയാകാം.

"ബ്ലാക്ക് ബോക്സ്" പ്രശ്നവും ഡിറ്റക്ഷന്റെ ഭാവിയും

വിജയിച്ച ടൂളുകൾ പോലും സുതാര്യതയുടെ കാര്യത്തിൽ വിമർശനങ്ങൾ നേരിടുന്നുണ്ട്. തന്റെ ഡിറ്റക്ടർ അടിസ്ഥാനപരമായി ഒരു "ബ്ലാക്ക് ബോക്സ്" (black box) പോലെയാണ് പ്രവർത്തിക്കുന്നതെന്ന് Pangram CEO Max Spero നിരീക്ഷിച്ചു; അതായത്, ഒരു പ്രത്യേക ടെക്സ്റ്റ് എന്തുകൊണ്ട് AI എന്ന് അടയാളപ്പെടുത്തപ്പെട്ടു എന്നതിനെക്കുറിച്ച് വിശദമായ വിശദീകരണം നൽകാൻ അതിന് കഴിയില്ല. മനുഷ്യർ എഴുതുന്നത് ഒരു LLM-ന്റെ ഏകതാനതയേക്കാൾ (uniformity) വൈവിധ്യമാർന്ന രീതിയിലും വാദമുഖങ്ങളോടെയുമാണെന്ന് അദ്ദേഹം വാദിക്കുന്നുണ്ടെങ്കിലും, വിശദീകരിക്കാൻ കഴിയാത്ത അവസ്ഥ (lack of interpretability) ഉത്തരവാദിത്തം ഉറപ്പാക്കുന്നതിന് ഒരു തടസ്സമായി തുടരുന്നു.

കൂടാതെ, ഈ പരീക്ഷണത്തിൽ Pangram, Grammarly എന്നിവയുടെ വിജയം പ്രധാനമായും തെളിയിക്കുന്നത് അവ തെറ്റായ പോസിറ്റീവുകൾ ഒഴിവാക്കുന്നതിൽ (മനുഷ്യരെ AI എന്ന് തെറ്റായി അടയാളപ്പെടുത്താതിരിക്കാൻ) മിടുക്കരാണെന്നാണ്. എന്നാൽ അവ AI-യെ പിടികൂടുന്നതിൽ (മെഷീൻ ടെക്സ്റ്റ് തിരിച്ചറിയുന്നതിൽ) ഒരുപോലെ ഫലപ്രദമാണെന്ന് ഇത് നിർബന്ധമായും ഉറപ്പുനൽകുന്നില്ല.

"എഴുതാൻ AI ഉപയോഗിക്കുക" എന്നതും "ചിന്തിക്കാൻ AI ഉപയോഗിക്കുക" എന്നതും തമ്മിലുള്ള വ്യത്യാസം തിരിച്ചറിയാൻ വ്യവസായം പാടുപെടുന്ന ഈ സാഹചര്യത്തിൽ, പ്രൊഫഷണൽ തീരുമാനങ്ങൾ എടുക്കുന്നതിന് ഡിറ്റക്ഷൻ ടൂളുകളെ മാത്രം ആശ്രയിക്കരുതെന്ന് Authors Guild മുന്നറിയിപ്പ് നൽകുന്നു.

പ്രധാന കാര്യങ്ങൾ

കൃത്യതയിലെ വലിയ വ്യത്യാസം: പരീക്ഷണത്തിൽ Pangram, Grammarly എന്നിവ 0% തെറ്റായ പോസിറ്റീവ് നിരക്ക് കൈവരിച്ചപ്പോൾ, Sidekicker.ai മനുഷ്യർ എഴുതിയ ടെക്സ്റ്റുകളിൽ 100 ശതമാനവും AI നിർമ്മിതമാണെന്ന് അടയാളപ്പെടുത്തി.
പ്രൊഫഷണൽ തിരിച്ചടി: ഉയർന്ന നിലവാരമുള്ളതും കൃത്യതയുള്ളതുമായ മനുഷ്യരുടെ എഴുത്തുകൾ AI ഔട്ട്പുട്ടിനോട് സാമ്യമുള്ള സ്റ്റാറ്റിസ്റ്റിക്കൽ പാറ്റേണുകൾ പങ്കിടുന്നു, ഇത് വിദഗ്ധരായ എഴുത്തുകാരെ ഡിറ്റക്ഷൻ പിഴവുകൾക്ക് ഇരയാക്കുന്നു.
മനുഷ്യ മേൽനോട്ടത്തിനുള്ള ആഹ്വാനം: ഡിറ്റക്ടറുകളെ അനുബന്ധ ടൂളുകളായി മാത്രം ഉപയോഗിക്കാനും എഴുത്തുകാർക്ക് അവരുടെ കൃതികളെ ന്യായീകരിക്കാൻ അവസരം നൽകാനും പ്രസാധകർക്ക് Authors Guild നിർദ്ദേശിക്കുന്നു.

AI ഡിറ്റക്ഷൻ വിശ്വാസ്യതയിലെ പ്രതിസന്ധി: ചില ടൂളുകൾ വിജയിക്കുമ്പോൾ മറ്റുള്ളവ പൂർണ്ണമായും പരാജയപ്പെടുന്നു

പ്രകടനത്തിലെ വ്യത്യാസം: പൂർണ്ണത മുതൽ പൂർണ്ണ പരാജയം വരെ

പ്രൊഫഷണൽ റൈറ്റിംഗിലെ വൈരുദ്ധ്യം

"ബ്ലാക്ക് ബോക്സ്" പ്രശ്നവും ഡിറ്റക്ഷന്റെ ഭാവിയും

പ്രധാന കാര്യങ്ങൾ

Continue reading

𝗪𝗵𝗲𝗻 𝗮 𝗛𝗮𝗻𝗱𝘄𝗿𝗶𝘁𝘁𝗲𝗻 𝗧𝗵𝗲𝘀𝗶𝘀 𝗕𝗲𝗰𝗼𝗺𝗲𝘀 𝟵𝟵 𝗣𝗲𝗿𝗰𝗲𝗻𝘁 𝗔𝗜

AI വിശ്വാസ്യതയിലെ വിടവ്: എന്തുകൊണ്ട് 60% യുഎസ് ഉപഭോക്താക്കൾ AI സന്ദേശങ്ങൾ നിരസിക്കുന്നു

AI ഡിറ്റക്ടറുകൾ വെറുതെ ഊഹിക്കുകയാണ്

വാദപ്രതിവാദങ്ങളിലെ മനുഷ്യസഹജമായ വൈവിധ്യം അനുകരിക്കാൻ LLM-കൾ എന്തുകൊണ്ട് പ്രയാസപ്പെടുന്നു?