AI ഡിറ്റക്ഷൻ വിശ്വാസ്യതയിലെ പ്രതിസന്ധി: ചില ടൂളുകൾ വിജയിക്കുമ്പോൾ മറ്റുള്ളവ പൂർണ്ണമായും പരാജയപ്പെടുന്നു

Authors Guild നടത്തിയ സമീപകാല പഠനം AI റൈറ്റിംഗ് ഡിറ്റക്ടറുകളുടെ (AI writing detectors) വിശ്വാസ്യതയിൽ വലിയ വ്യത്യാസമുണ്ടെന്ന് വെളിപ്പെടുത്തിയിരിക്കുന്നു. ചില ടൂളുകൾ വളരെ കൃത്യതയുള്ളതാണെങ്കിലും മറ്റുള്ളവ അടിസ്ഥാനപരമായി പിഴവുകൾ നിറഞ്ഞതാണെന്ന് ഈ പഠനം വ്യക്തമാക്കുന്നു. തങ്ങളുടെ രചനകൾ മനുഷ്യർ തയ്യാറാക്കിയതാണെന്ന് തെളിയിക്കേണ്ടി വരുന്ന പ്രൊഫഷണൽ എഴുത്തുകാരുടെ ഉപജീവനത്തിന് ഈ അസ്ഥിരത വലിയ ഭീഷണിയുയർത്തുന്നു.

പ്രകടനത്തിലെ വ്യത്യാസം: പൂർണ്ണത മുതൽ പൂർണ്ണ പരാജയം വരെ

ജനറേറ്റീവ് AI ഒരു മുഖ്യധാരാ പ്രതിഭാസമായി മാറുന്നതിന് വർഷങ്ങൾക്ക് മുമ്പ്, അതായത് 2020-നും 2022-നും ഇടയിൽ പ്രസിദ്ധീകരിച്ച പത്ത് ലേഖനങ്ങൾ ഉപയോഗിച്ച് Authors Guild കർശനമായ ഒരു പരീക്ഷണം നടത്തി. "AI-ക്ക് മുമ്പുള്ള" മനുഷ്യർ എഴുതിയ ടെക്സ്റ്റുകൾ ഉപയോഗിച്ചതിലൂടെ, തെറ്റായ പോസിറ്റീവ് നിരക്കുകൾ (false positive rates) അളക്കുന്നതിന് കൃത്യമായ ഒരു അടിസ്ഥാനം ഈ പഠനം നൽകി.

ഫലങ്ങൾ വിപരീതമായിരുന്നു. Pangram, Grammarly എന്നിവ ഏറ്റവും വിശ്വസനീയമായ ടൂളുകളായി ഉയർന്നുവന്നു; അവ മനുഷ്യർ എഴുതിയ ഓരോ ടെക്സ്റ്റും കൃത്യമായി മനുഷ്യർ എഴുതിയതാണെന്ന് തിരിച്ചറിഞ്ഞു (0.0% AI സ്കോർ). Originality.ai ഉം മികച്ച പ്രകടനം കാഴ്ചവെച്ചു, എല്ലാ മേഖലകളിലും ഉയർന്ന കൃത്യത നിലനിർത്തി.

ഇതിന് നേർവിപരീതമായി, Sidekicker.ai വലിയ തോതിൽ പരാജയപ്പെട്ടു. പരീക്ഷണത്തിലെ ഓരോ മനുഷ്യർ എഴുതിയ ലേഖനവും "മിക്കവാറും AI നിർമ്മിതം" (mostly AI-generated) എന്ന് അടയാളപ്പെടുത്തപ്പെട്ടു; രണ്ട് പ്രത്യേക ലേഖനങ്ങൾക്ക് 100% AI സ്കോർ പോലും ലഭിച്ചു. ZeroGPT ഉം വിശ്വസനീയമല്ലെന്ന് തെളിഞ്ഞു. മനുഷ്യർ എഴുതിയതാണെന്ന് തർക്കമില്ലാത്ത ലേഖനങ്ങൾക്ക് പോലും ഇത് പലപ്പോഴും ഉയർന്ന AI ശതമാനം റിപ്പോർട്ട് ചെയ്തു; ഉദാഹരണത്തിന്, "Erdrich Pulitzer Prize" എന്ന ലേഖനത്തിന് 76.3% AI സാധ്യതയാണെന്ന് ഇത് രേഖപ്പെടുത്തി.

പ്രൊഫഷണൽ റൈറ്റിംഗിലെ വൈരുദ്ധ്യം

ഒരു ആശങ്കാജനകമായ സാങ്കേതിക വൈരുദ്ധ്യമാണ് ഈ പഠനം ചൂണ്ടിക്കാണിക്കുന്നത്: ഒരു മനുഷ്യ എഴുത്തുകാരൻ എത്രത്തോളം വൈദഗ്ധ്യമുള്ളവനാണോ, അത്രത്തോളം കൂടുതൽ സാധ്യതയാണ് പിഴവുകളുള്ള ഡിറ്റക്ടറുകൾ അവരെ AI എന്ന് തെറ്റായി അടയാളപ്പെടുത്താൻ. വ്യക്തത, ലാളിത്യം, കൃത്യത എന്നിവയിലാണ് പ്രൊഫഷണൽ റൈറ്റിംഗ് അധിഷ്ഠിതമായിരിക്കുന്നത്—ഇവയാണ് Large Language Models (LLMs) അനുകരിക്കാൻ പരിശീലിപ്പിക്കപ്പെട്ടിരിക്കുന്ന അതേ സ്റ്റാറ്റിസ്റ്റിക്കൽ പാറ്റേണുകൾ.

AI മോഡലുകൾ ഉയർന്ന നിലവാരമുള്ള മനുഷ്യരുടെ ഗദ്യങ്ങളിൽ (prose) പരിശീലിപ്പിക്കപ്പെട്ടതിനാൽ, വൈദഗ്ധ്യമുള്ള ഒരു എഴുത്തുകാരന്റെ വാചകത്തിന്റെ "വിരലടയാളം" (fingerprint) ഒരു AI നിർമ്മിത വാചകത്തിന് സമാനമായി തോന്നാം. ഇത് വലിയ പ്രത്യാഘാതങ്ങൾ ഉണ്ടാക്കുന്ന ഒരു സാഹചര്യമാണ് സൃഷ്ടിക്കുന്നത്; പതിറ്റാണ്ടുകളോളം തങ്ങളുടെ കഴിവ് മെച്ചപ്പെടുത്തിയ ഒരു എഴുത്തുകാരന്, Sidekicker പോലുള്ള ഒരു ടൂളിൽ നിന്നുള്ള തെറ്റായ പോസിറ്റീവ് റിപ്പോർട്ട് കാരണം കരാറുകൾ നഷ്ടപ്പെടാനോ സൽപ്പേര് തകരാനോ ഇടയാകാം.

"ബ്ലാക്ക് ബോക്സ്" പ്രശ്നവും ഡിറ്റക്ഷന്റെ ഭാവിയും

വിജയിച്ച ടൂളുകൾ പോലും സുതാര്യതയുടെ കാര്യത്തിൽ വിമർശനങ്ങൾ നേരിടുന്നുണ്ട്. തന്റെ ഡിറ്റക്ടർ അടിസ്ഥാനപരമായി ഒരു "ബ്ലാക്ക് ബോക്സ്" (black box) പോലെയാണ് പ്രവർത്തിക്കുന്നതെന്ന് Pangram CEO Max Spero നിരീക്ഷിച്ചു; അതായത്, ഒരു പ്രത്യേക ടെക്സ്റ്റ് എന്തുകൊണ്ട് AI എന്ന് അടയാളപ്പെടുത്തപ്പെട്ടു എന്നതിനെക്കുറിച്ച് വിശദമായ വിശദീകരണം നൽകാൻ അതിന് കഴിയില്ല. മനുഷ്യർ എഴുതുന്നത് ഒരു LLM-ന്റെ ഏകതാനതയേക്കാൾ (uniformity) വൈവിധ്യമാർന്ന രീതിയിലും വാദമുഖങ്ങളോടെയുമാണെന്ന് അദ്ദേഹം വാദിക്കുന്നുണ്ടെങ്കിലും, വിശദീകരിക്കാൻ കഴിയാത്ത അവസ്ഥ (lack of interpretability) ഉത്തരവാദിത്തം ഉറപ്പാക്കുന്നതിന് ഒരു തടസ്സമായി തുടരുന്നു.

കൂടാതെ, ഈ പരീക്ഷണത്തിൽ Pangram, Grammarly എന്നിവയുടെ വിജയം പ്രധാനമായും തെളിയിക്കുന്നത് അവ തെറ്റായ പോസിറ്റീവുകൾ ഒഴിവാക്കുന്നതിൽ (മനുഷ്യരെ AI എന്ന് തെറ്റായി അടയാളപ്പെടുത്താതിരിക്കാൻ) മിടുക്കരാണെന്നാണ്. എന്നാൽ അവ AI-യെ പിടികൂടുന്നതിൽ (മെഷീൻ ടെക്സ്റ്റ് തിരിച്ചറിയുന്നതിൽ) ഒരുപോലെ ഫലപ്രദമാണെന്ന് ഇത് നിർബന്ധമായും ഉറപ്പുനൽകുന്നില്ല.

"എഴുതാൻ AI ഉപയോഗിക്കുക" എന്നതും "ചിന്തിക്കാൻ AI ഉപയോഗിക്കുക" എന്നതും തമ്മിലുള്ള വ്യത്യാസം തിരിച്ചറിയാൻ വ്യവസായം പാടുപെടുന്ന ഈ സാഹചര്യത്തിൽ, പ്രൊഫഷണൽ തീരുമാനങ്ങൾ എടുക്കുന്നതിന് ഡിറ്റക്ഷൻ ടൂളുകളെ മാത്രം ആശ്രയിക്കരുതെന്ന് Authors Guild മുന്നറിയിപ്പ് നൽകുന്നു.

പ്രധാന കാര്യങ്ങൾ

  • കൃത്യതയിലെ വലിയ വ്യത്യാസം: പരീക്ഷണത്തിൽ Pangram, Grammarly എന്നിവ 0% തെറ്റായ പോസിറ്റീവ് നിരക്ക് കൈവരിച്ചപ്പോൾ, Sidekicker.ai മനുഷ്യർ എഴുതിയ ടെക്സ്റ്റുകളിൽ 100 ശതമാനവും AI നിർമ്മിതമാണെന്ന് അടയാളപ്പെടുത്തി.
  • പ്രൊഫഷണൽ തിരിച്ചടി: ഉയർന്ന നിലവാരമുള്ളതും കൃത്യതയുള്ളതുമായ മനുഷ്യരുടെ എഴുത്തുകൾ AI ഔട്ട്പുട്ടിനോട് സാമ്യമുള്ള സ്റ്റാറ്റിസ്റ്റിക്കൽ പാറ്റേണുകൾ പങ്കിടുന്നു, ഇത് വിദഗ്ധരായ എഴുത്തുകാരെ ഡിറ്റക്ഷൻ പിഴവുകൾക്ക് ഇരയാക്കുന്നു.
  • മനുഷ്യ മേൽനോട്ടത്തിനുള്ള ആഹ്വാനം: ഡിറ്റക്ടറുകളെ അനുബന്ധ ടൂളുകളായി മാത്രം ഉപയോഗിക്കാനും എഴുത്തുകാർക്ക് അവരുടെ കൃതികളെ ന്യായീകരിക്കാൻ അവസരം നൽകാനും പ്രസാധകർക്ക് Authors Guild നിർദ്ദേശിക്കുന്നു.