AI ഏജന്റ് നടപടികൾ തീരുമാനിക്കാൻ ഒരു LLM ഉപയോഗിക്കരുത്

നിങ്ങളുടെ AI ഏജന്റിന് എന്തൊക്കെ ചെയ്യാൻ അനുവാദമുണ്ടെന്ന് തീരുമാനിക്കാൻ LLM-കൾ ഉപയോഗിക്കുന്നത് നിർത്തുക.

ഞാൻ AARM എന്നൊരു ഗ്രൂപ്പിൽ അംഗമാണ്. AI ഏജന്റുകളെ എങ്ങനെ സുരക്ഷിതമാക്കാം എന്നാണ് ഞങ്ങൾ പഠിക്കുന്നത്. ഞങ്ങൾ ഒരു കാര്യത്തിൽ യോജിക്കുന്നു: നിയന്ത്രണം (control) എന്നത് നടപടി നടപ്പിലാക്കുന്ന ഘട്ടത്തിൽ തന്നെയായിരിക്കണം. ഒരു ടൂൾ കോൾ (tool call) പ്രവർത്തിക്കുന്നതിന് മുമ്പ് നിങ്ങൾ അത് പരിശോധിക്കണം. ഏജന്റിന് ഈ പരിശോധനയെ മറികടക്കാൻ കഴിയില്ല. ഒരു ഏജന്റിനോട് "ദയവായി ഇത് ചെയ്യരുത്" എന്ന് പറയുന്നത് ഒരു സുരക്ഷാ മാതൃകയല്ല (security model).

പലരും ഒരു രണ്ടാമത്തെ LLM-നെ ഒരു ജഡ്ജിയായി ഉപയോഗിക്കാറുണ്ട്. ഏജന്റ് ഒരു പ്രവർത്തി ചെയ്യാൻ ആഗ്രഹിക്കുന്നു. നിങ്ങൾ ആ പ്രവർത്തി ഒരു രണ്ടാമത്തെ മോഡലിലേക്ക് അയക്കുന്നു. ആ പ്രവർത്തി സുരക്ഷിതമാണോ എന്ന് നിങ്ങൾ അതിനോട് ചോദിക്കുന്നു. മോഡൽ 'അതെ' എന്നോ 'അല്ല' എന്നോ മറുപടി നൽകുന്നു. ഇത് ഒരു മോഡൽ മറ്റൊരു മോഡലിനെ നിരീക്ഷിക്കുന്ന രീതിയാണ്. ഈ സമീപനത്തിന് രണ്ട് പ്രധാന പോരായ്മകളുണ്ട്.

ഒന്നാമതായി, ജഡ്ജിക്കും ഏജന്റിന്റേതിന് സമാനമായ ബലഹീനതകളുണ്ട്. പ്രോംപ്റ്റ് ഇൻജക്ഷൻ (prompt injection) വഴിയോ ബുദ്ധിപരമായ ഉപയോക്തൃ അഭ്യർത്ഥനകൾ വഴിയോ ഏജന്റുകളെ കബളിപ്പിക്കാൻ സാധിക്കും. നിങ്ങൾക്ക് ഏജന്റിനെ കബളിപ്പിക്കാൻ കഴിയുമെങ്കിൽ, ജഡ്ജിയെയും കബളിപ്പിക്കാൻ സാധ്യതയുണ്ട്. സമ്മർദ്ദത്തിന് വഴങ്ങുന്ന ഒരു രണ്ടാമത്തെ സംവിധാനത്തെ ആദ്യത്തേതിന് മുന്നിൽ നിങ്ങൾ പ്രതിഷ്ഠിക്കുകയാണ് ചെയ്യുന്നത്.

രണ്ടാമതായി, LLM-കൾ ഡിറ്റർമിനിസ്റ്റിക് (deterministic) അല്ല. ഒരേ ചോദ്യം തന്നെ ഒരു മോഡലിനോട് രണ്ടുതവണ ചോദിച്ചാൽ വ്യത്യസ്ത ഉത്തരങ്ങൾ ലഭിച്ചേക്കാം. സാമ്പിളിംഗ് (sampling) കാരണമാണ് ഇത് സംഭവിക്കുന്നത്. മിക്ക ജോലികൾക്കും ഇത് കുഴപ്പമില്ലാത്തതാണ്. എന്നാൽ സുരക്ഷയുടെ കാര്യത്തിൽ ഇത് ഒരു വലിയ ബാധ്യതയാണ്.

ചൊവ്വാഴ്ച ഒരു ഡാറ്റാബേസ് ഡിലീറ്റ് ചെയ്യാൻ ഒരു ഏജന്റിന് അനുവാദമുണ്ടാകാം, എന്നാൽ ബുധനാഴ്ച അത് തടയപ്പെട്ടേക്കാം. എന്തുകൊണ്ട് എന്ന് വിശദീകരിക്കാൻ കൃത്യമായ യുക്തിയില്ല. അത് വെറുമൊരു യാദൃശ്ചികത മാത്രമാണ്. ഒരു ഓഡിറ്റർക്ക് (auditor) ഇത് വിശദീകരിച്ചു കൊടുക്കാൻ നിങ്ങൾക്ക് കഴിയില്ല. കാര്യങ്ങൾ തെറ്റായി പോകുമ്പോൾ പുലർച്ചെ രണ്ട് മണിക്ക് നിങ്ങൾക്ക് ഇതിനെ ആശ്രയിക്കാനും കഴിയില്ല.

എന്നാൽ ഒരു നിയമം (rule) വ്യത്യസ്തമാണ്. "production-ൽ ഡിലീറ്റ് ചെയ്യുന്നത് നിരോധിക്കുക" എന്ന് ഒരു നിയമം പറയുമ്പോൾ, അത് എല്ലാ തവണയും കൃത്യമായി പ്രവർത്തിക്കും. നിങ്ങൾക്ക് അത് പരിശോധിക്കാം. നിങ്ങൾക്ക് ലോഗുകൾ (logs) ഓഡിറ്റ് ചെയ്യാം. ആ തീരുമാനത്തിന് പിന്നിൽ നിങ്ങൾക്ക് ഉറച്ചുനിൽക്കാം.

സുരക്ഷാ കാര്യങ്ങളിൽ മോഡലുകൾക്ക് ഉപയോഗപ്രദതയുണ്ട്, എന്നാൽ അവയെ അവസാന തീരുമാനമെടുക്കുന്ന വാതിലായി (final gate) കാണരുത്. താഴെ പറയുന്ന കാര്യങ്ങൾക്കായി മോഡലുകളെ ഉപയോഗിക്കാം:

  • വിചിത്രമായ പാറ്റേണുകൾ കണ്ടെത്താൻ.
  • സെൻസിറ്റീവ് ആയ ടെക്സ്റ്റുകൾ അടയാളപ്പെടുത്താൻ.
  • റിസ്ക് ലെവലുകൾ കണക്കാക്കാൻ.
  • അനോമലികൾ (anomalies) തിരിച്ചറിയാൻ.

പ്രശ്നങ്ങൾ അടയാളപ്പെടുത്താൻ മോഡലിനെ അനുവദിക്കുക, പക്ഷേ വാതിൽ തുറക്കാൻ അതിനെ അനുവദിക്കരുത്. എല്ലാ തവണയും ഒരേ ഉത്തരം നൽകുന്ന ഒരു സംവിധാനത്തിലായിരിക്കണം അവസാന തീരുമാനം എടുക്കേണ്ടത്.

നിങ്ങളുടെ ഏജന്റ് പണം, production ഡാറ്റ, അല്ലെങ്കിൽ ഉപഭോക്താക്കളുടെ വിവരങ്ങൾ എന്നിവയുമായി എത്രത്തോളം അടുക്കുന്നുവോ, അത്രത്തോളം ഇത് പ്രധാനമാണ്. ഒരു ഏജന്റ് മോശം ഒരു പാരഗ്രാഫ് എഴുതിയാൽ അത് വലിയൊരു പ്രതിസന്ധിയല്ല. എന്നാൽ ഒരു ഏജന്റ് ഒരു ഡാറ്റാബേസ് ഇല്ലാതാക്കിയാൽ അത് വലിയൊരു ദുരന്തമാണ്.

അവസാന തീരുമാനം വിരസമായ ഒന്നായിരിക്കണം (boring). ഏജന്റിന് തർക്കിച്ചു മാറ്റാൻ കഴിയാത്ത ഒരു കർശനമായ നിയമമായിരിക്കണം അത്.

Source: https://dev.to/brianrhall/dont-use-an-llm-to-decide-what-your-ai-agent-is-allowed-to-do-1dkn

Optional learning community: https://t.me/GyaanSetuAi