𝗔𝗜 𝗗𝗲𝘁𝗲𝗰𝘁𝗼𝗿𝘀 𝗔𝗿𝗲 𝗚𝘂𝗲𝘀𝘀𝗶𝗻𝗴

മനുഷ്യർ എഴുതിയ കാര്യങ്ങൾ മെഷീൻ നിർമ്മിച്ചതാണെന്ന് AI ഡിറ്റക്ടറുകൾ പലപ്പോഴും തെറ്റായി അടയാളപ്പെടുത്താറുണ്ട്. പല കമ്പനികളും ജോലിക്കെടുക്കുന്നതിനോ ഗ്രേഡിംഗിനോ വേണ്ടി ഇത്തരം ടൂളുകൾ ഉപയോഗിക്കുന്നു. അവർ ഈ സ്കോറിനെ ഒരു വസ്തുതയായി കണക്കാക്കുന്നു. എന്നാൽ അത് വസ്തുതയല്ല.

ഈ ടൂളുകൾ നിങ്ങളുടെ എഴുത്തിന്റെ അർത്ഥം വായിച്ചല്ല പ്രവർത്തിക്കുന്നത്. മെഷീൻ നിർമ്മിച്ചതാണോ എന്ന് ഊഹിക്കാൻ അവ ഗണിതശാസ്ത്രപരമായ സാധ്യതകൾ (probability) ഉപയോഗിക്കുന്നു.

അവ പ്രധാനമായും മൂന്ന് കാര്യങ്ങളാണ് പരിശോധിക്കുന്നത്:

  • Perplexity: നിങ്ങളുടെ വാക്കുകൾ എത്രത്തോളം പ്രവചിക്കാവുന്നത് (predictable) എന്ന് ഇത് അളക്കുന്നു. AI അടുത്തതായി വരാൻ സാധ്യതയുള്ള വാക്ക് തിരഞ്ഞെടുക്കുന്നു. എന്നാൽ മനുഷ്യരുടെ എഴുത്ത് പലപ്പോഴും അപ്രതീക്ഷിതമായിരിക്കും. കുറഞ്ഞ perplexity ഉള്ള എഴുത്തുകൾ AI നിർമ്മിച്ചതാണെന്ന് തോന്നിപ്പിക്കും.
  • Burstiness: വാചകങ്ങളിലെ വൈവിധ്യം ഇത് അളക്കുന്നു. മനുഷ്യർ ചെറിയ വാചകങ്ങളും വലിയ വാചകങ്ങളും കലർത്തി ഉപയോഗിക്കുന്നു. എന്നാൽ AI പലപ്പോഴും ഒരേ താളത്തിലുള്ള വാചകങ്ങളാണ് ഉപയോഗിക്കുന്നത്. വൈവിധ്യം കുറഞ്ഞ എഴുത്തുകൾ AI നിർമ്മിച്ചതാണെന്ന് തോന്നിപ്പിക്കും.
  • Classifiers: മനുഷ്യരും മെഷീനുകളും എഴുതിയ സാമ്പിളുകൾ പഠിച്ചാണ് ഈ മോഡലുകൾ പ്രവർത്തിക്കുന്നത്. പാറ്റേണുകൾ (patterns) അടിസ്ഥാനമാക്കിയാണ് അവ ഊഹിക്കുന്നത്. മോഡലിന് പുതിയൊരു എഴുത്തുരീതി കാണした場合, അത് പരാജയപ്പെടും.

Watermarking മറ്റൊരു രീതിയാണ്. വാക്കുകളുടെ തിരഞ്ഞെടുപ്പിൽ പാറ്റേണുകൾ ഒളിപ്പിച്ചു വെക്കുന്ന രീതിയാണിത്. എന്നാൽ ആരെങ്കിലും എഴുത്ത് എഡിറ്റ് ചെയ്യുകയോ പാരഫ്രേസ് (paraphrase) ചെയ്യുകയോ ചെയ്താൽ ഈ രീതി പരാജയപ്പെടും.

ഈ ടൂളുകൾക്ക് ഗുരുതരമായ പോരായ്മകളുണ്ട്:

  • നല്ല എഴുത്തുകൾ AI നിർമ്മിച്ചതാണെന്ന് തോന്നിപ്പിക്കാം. വ്യക്തവും ലളിതവും ഘടനാപരവുമായ എഴുത്തുകൾക്ക് കുറഞ്ഞ perplexity ആയിരിക്കും. നിങ്ങൾ എത്ര നന്നായി എഴുതുന്നുവോ, അത്രത്തോളം റോബോട്ടിക് ആയിരിക്കും നിങ്ങൾ ഒരു ടൂളിന് മുന്നിൽ തോന്നുക.
  • ഇംഗ്ലീഷ് മാതൃഭാഷയല്ലാത്തവർക്കെതിരെയുള്ള പക്ഷപാതം. ഇംഗ്ലീഷ് മാതൃഭാഷയല്ലാത്തവർ എഴുതുന്ന കാര്യങ്ങൾ ഡിറ്റക്ടറുകൾ കൂടുതൽ തവണ തെറ്റായി അടയാളപ്പെടുത്തുന്നുണ്ടെന്ന് സ്റ്റാൻഫോർഡ് സർവ്വേ കണ്ടെത്തിയിട്ടുണ്ട്. ലളിതമായ ശൈലികൾ ഈ ടൂളുകൾക്ക് മെഷീൻ ഔട്ട്പുട്ട് പോലെ തോന്നാം.
  • കബളിപ്പിക്കാൻ എളുപ്പമാണ്. ഏതാനും പര്യായപദങ്ങളോ ചെറിയ മാറ്റങ്ങളോ വരുത്തിയാൽ ഡിറ്റക്ടറിനെ തെറ്റിക്കാം. ഇത് സത്യസന്ധരായ എഴുത്തുകാരെ ശിക്ഷിക്കുകയും കുറഞ്ഞ പരിശ്രമം മാത്രം നടത്തുന്ന AI ഉപയോക്താക്കളെ രക്ഷിക്കുകയും ചെയ്യുന്നു.

കൃത്യതയില്ലായ്മ കാരണം 2023-ൽ OpenAI പോലും അവരുടെ സ്വന്തം ഡിറ്റക്ടർ ഉപയോഗിക്കുന്നത് നിർത്തിവെച്ചു. നിർമ്മാതാക്കൾക്ക് പോലും അവരുടെ സ്വന്തം AI തിരിച്ചറിയാൻ കഴിയില്ലെങ്കിൽ, ഉയർന്ന കൃത്യത അവകാശപ്പെടുന്ന മൂന്നാം കക്ഷി (third-party) ടൂളുകളെ വിശ്വസിക്കരുത്.

ഈ സ്കോറുകൾ സുരക്ഷിതമായി എങ്ങനെ ഉപയോഗിക്കാം:

  • ഒരു സ്കോറിനെ മാത്രം അടിസ്ഥാനമാക്കി തീരുമാനങ്ങൾ എടുക്കരുത്. തെറ്റായ ആരോപണങ്ങൾ വിദ്യാർത്ഥികൾക്കോ ജോലി അന്വേഷിക്കുന്നവർക്കോ വലിയ ദോഷം ചെയ്യും.
  • പ്രക്രിയ പരിശോധിക്കുക. ഒരു പ്രോബബിലിറ്റി സ്കോറിന് പകരം എഡിറ്റ് ഹിസ്റ്ററിയും ഡ്രാഫ്റ്റുകളും പരിശോധിക്കുക.
  • അനിശ്ചിതത്വം പ്രകടിപ്പിക്കുക. നിങ്ങൾ ഈ ടൂളുകൾ ഉപയോഗിക്കുന്നുണ്ടെങ്കിൽ, 'മനുഷ്യൻ' അല്ലെങ്കിൽ 'AI' എന്ന ലേബലിന് പകരം ഒരു കോൺഫിഡൻസ് റേഞ്ച് (confidence range) കാണിക്കുക.

AI ഡിറ്റക്ടറുകൾ പാറ്റേണുകൾ തിരിച്ചറിയുന്നവയാണ്. അവ സൂചനകൾ നൽകാൻ ഉപയോഗപ്രദമാണെങ്കിലും തെളിവായി ഉപയോഗിക്കുന്നത് അപകടകരമാണ്.

Source: https://dev.to/ricco020/ai-text-detectors-are-mostly-guessing-how-they-actually-work-2ibl

Optional learning community: https://t.me/GyaanSetuAi