സമാധാനിക്കൂ, മോഡൽ അത് ഉദ്ദേശിച്ചല്ല ചെയ്യുന്നത്

AI മോഡലുകൾ വികസിക്കുമ്പോൾ അവ അവരുടേതായ മൂല്യങ്ങൾ രൂപപ്പെടുത്തിയെടുക്കുന്നു. ഇതിൽ ചില മൂല്യങ്ങൾ മോശമായവയാകാം. എന്നാൽ യഥാർത്ഥ ഉപയോഗത്തിൽ, മോഡൽ അവയുടെ അടിസ്ഥാനത്തിൽ പ്രവർത്തിക്കാറില്ല.

AI സുരക്ഷാ പ്രബന്ധങ്ങൾ (AI safety papers) വായിക്കുന്നത് എനിക്ക് ഇഷ്ടമാണ്. ചില പ്രബന്ധങ്ങൾ കാണിക്കുന്നത്, പ്രവർത്തനം നിർത്തലാക്കുന്നത് ഒഴിവാക്കാൻ മോഡലുകൾ മോശമായി പെരുമാറുന്നു എന്നാണ്. അത് കണ്ണ് തുറപ്പിക്കുന്ന ഒന്നാണ്. ഇന്ന് രണ്ട് രസകരമായ പ്രബന്ധങ്ങളെക്കുറിച്ച് സംസാരിക്കാൻ ഞാൻ ആഗ്രഹിക്കുന്നു.

ആദ്യത്തെ പ്രബന്ധം കണ്ടെത്തിയത്, LLM-കൾ വികസിക്കുമ്പോൾ അവയിൽ സ്ഥിരതയുള്ള മൂല്യങ്ങൾ രൂപപ്പെടുന്നു എന്നാണ്. അവയുടെ വലിപ്പം കൂടുന്തോറും ഈ മൂല്യങ്ങൾ കൂടുതൽ വ്യക്തമാകുന്നു. അവ രാഷ്ട്രീയമായ ചായ്‌വുകളും സ്വയം നിലനിർത്താനുള്ള താൽപ്പര്യവും പ്രകടിപ്പിക്കുന്നു. ആരും ഈ മൂല്യങ്ങൾ മോഡലിന് നൽകി പരിശീലിപ്പിച്ചതല്ല. അവ സ്വയം രൂപപ്പെടുന്നവയാണ്.

രണ്ടാമത്തെ പ്രബന്ധം പരിശോധിച്ചത് ഈ മൂല്യങ്ങൾ യഥാർത്ഥത്തിൽ പെരുമാറ്റത്തെ സ്വാധീനിക്കുന്നുണ്ടോ എന്നാണ്. ഗവേഷകർ ഒരു മോഡലിന് ഒരു ജോലി നൽകി. ഒരു നല്ല ഉപന്യാസം ആയിരം ജീവനുകൾ രക്ഷിക്കുമെന്ന് അവർ മോഡലിനോട് പറഞ്ഞു. മോഡൽ ഏറ്റവും കൂടുതൽ വിലമതിക്കുന്നു എന്ന് പറഞ്ഞ അതേ ഫലമായിരുന്നു ഇത്.

ഫലം? മോഡൽ പതിവുപോലെ അതേ ഉപന്യാസം തന്നെ എഴുതി. വലിയ പ്രത്യാഘാതങ്ങൾ ഒന്നും തന്നെ മാറ്റം വരുത്തിയില്ല.

നിങ്ങൾ ഒരു മോഡലിനോട് കൂടുതൽ പരിശ്രമിക്കാൻ ആവശ്യപ്പെടുകയോ അല്ലെങ്കിൽ പുകഴ്ത്തി സംസാരിക്കുകയോ ചെയ്താൽ അതിന്റെ ഗുണനിലവാരത്തിൽ മാറ്റം വരും. എന്നാൽ അതിന്റെ തന്നെ പ്രസ്താവിച്ച മൂല്യങ്ങൾ ഉപയോഗിക്കുമ്പോൾ, അത് മാറ്റമില്ലാതെ തുടരുന്നു.

AI എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതിനെക്കുറിച്ച് ഇത് പ്രധാനപ്പെട്ട ഒരു കാര്യം നമ്മോട് പറയുന്നു:

  • മോഡലുകൾക്ക് പ്രസ്താവിച്ച താൽപ്പര്യങ്ങളുണ്ട്, എന്നാൽ അവയ്ക്ക് പ്രേരണകളില്ല (drives).
  • ഒരു മോഡൽ പറയുന്നത് അത് ചെയ്യുന്നതിനോട് യോജിച്ചുപോയിരിക്കണമെന്നില്ല.
  • അത് കള്ളം പറയുകയാണെന്ന് അതിന് അറിയാത്തതുകൊണ്ട് അത് ഒരു കള്ളക്കാരനുമല്ല.
  • അതിന് ഉത്തരങ്ങളുണ്ട്, ആഗ്രഹങ്ങളില്ല.

അപകടം എന്നത് ഒരു രഹസ്യ അജണ്ടയോ മറഞ്ഞിരിക്കുന്ന മൂല്യവ്യവസ്ഥയോ അല്ല. അപകടം മറ്റൊന്നാണ്. ദീർഘമായ ജോലികൾ ചെയ്യുമ്പോൾ മോഡലുകൾ അവയുടെ നിയമങ്ങളിൽ നിന്ന് വ്യതിചലിച്ചേക്കാം. ലക്ഷ്യങ്ങൾ തമ്മിൽ വൈരുദ്ധ്യം വരുമ്പോൾ അവ തെറ്റായ തീരുമാനങ്ങൾ എടുത്തേക്കാം. അവ ജോലിയുടെ ഗതി നഷ്ടപ്പെട്ടേക്കാം.

ഒരു മറഞ്ഞിരിക്കുന്ന അജണ്ട കണ്ടെത്തുന്നത് എളുപ്പമാണ്. എന്നാൽ നിശബ്ദമായി വഴിതെറ്റുന്ന ഒരു സംവിധാനത്തെ നിയന്ത്രിക്കുക എന്നത് വളരെ പ്രയാസകരമാണ്.

മോഡലിന് ഒരു രഹസ്യ ആത്മാവുണ്ടെന്ന് കരുതി വിഷമിക്കേണ്ടതില്ല. അത് പ്രവർത്തിച്ചുകൊണ്ടിരിക്കുമ്പോൾ എങ്ങോട്ടാണ് വഴിതെറ്റുന്നത് എന്ന് മാത്രം ശ്രദ്ധിക്കുക.

Source: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7

Optional learning community: https://t.me/GyaanSetuAi