ഞാൻ എന്റെ AI ഏജന്റിന് ഒരു മനസ്സാക്ഷിയും ഒരു കൗൺസിലും നൽകി
ഞാൻ ഒരു സ്വയംഭരണാധികാരമുള്ള (autonomous) AI നിർമ്മിക്കുന്നു. അത് വെറുതെ കമാൻഡുകൾ നിർദ്ദേശിക്കുക മാത്രമല്ല ചെയ്യുന്നത്. അത് യഥാർത്ഥ പ്രൊഡക്ഷൻ സിസ്റ്റങ്ങളിൽ അവ പ്രവർത്തിപ്പിക്കുകയും ചെയ്യുന്നു.
ഒരു ഏജന്റ് യഥാർത്ഥ ഇൻഫ്രാസ്ട്രക്ചറിൽ പ്രവർത്തിക്കുമ്പോൾ, അതിന്റെ കഴിവല്ല പ്രധാന പ്രശ്നം. അപകടകാരികളാകാൻ തക്കവണ്ണം മോഡലുകൾ ഇപ്പോൾ തന്നെ പ്രാപ്തമാണ്. യഥാർത്ഥ പ്രശ്നം ഗവേണൻസ് (governance) ആണ്. എന്തെങ്കിലും എന്നെന്നേക്കുമായി തകരാതെ നോക്കി, ഒരു സ്വയംഭരണാധികാരമുള്ള സിസ്റ്റത്തെ യഥാർത്ഥ ടൂളുകൾ ഉപയോഗിക്കാൻ നിങ്ങൾ എങ്ങനെ അനുവദിക്കും?
ഇത് പരിഹരിക്കാൻ ഞാൻ രണ്ട് കവാടങ്ങൾ (gates) നിർമ്മിച്ചു.
ആദ്യത്തെ കവാടം 'കോൺഷ്യൻസ്' (Conscience) ആണ്.
ഓരോ കമാൻഡും ഈ പരിശോധനയിലൂടെ കടന്നുപോകുന്നു. ഇതൊരു LLM അല്ല. പകരം ഞാൻ വേഗതയേറിയതും നിശ്ചിതവുമായ (deterministic) ഒരു പരിശോധനയാണ് ഉപയോഗിക്കുന്നത്. ഇത് പ്രവർത്തനങ്ങളെ റിവേഴ്സിബിൾ (reversible), എക്സ്റ്റേണൽ (external), ഇറിവേഴ്സിബിൾ (irreversible), അല്ലെങ്കിൽ ഡിസ്ട്രക്റ്റീവ് (destructive) എന്നിങ്ങനെ തരംതിരിക്കുന്നു. ഇത് അതിന്റെ ആഘാതപരിധി (blast radius) പരിശോധിക്കുകയും അനുവദിക്കണോ, ചോദിക്കണോ, അതോ നിഷേധിക്കണോ എന്ന് തീരുമാനിക്കുകയും ചെയ്യുന്നു.
സുരക്ഷയ്ക്കായി ഞാൻ ഒരു LLM ഉപയോഗിക്കുന്നില്ല, കാരണം തെറ്റായ വിവരങ്ങൾ നൽകുന്ന (hallucinates) ഒരു സുരക്ഷാ പരിശോധന കൊണ്ട് പ്രയോജനമില്ല. കോൺഷ്യൻസ് എന്നത് ഒരു സ്പൈനൽ റിഫ്ലെക്സ് (spinal reflex) പോലെയാണ്. അത് വിരസവും പ്രവചിക്കാവുന്നതുമാണ്. ബുദ്ധിയുള്ള മോഡൽ പ്രവർത്തനം നിർദ്ദേശിക്കുന്നു, എന്നാൽ വിശ്വസനീയമായ ഈ റിഫ്ലെക്സ് അത് നിയന്ത്രിക്കുന്നു.
രണ്ട് നിയമങ്ങളാണ് കോൺഷ്യൻസിനെ നയിക്കുന്നത്:
- Fail-open, not fail-closed. സിസ്റ്റത്തിന് സംശയമുണ്ടാകുമ്പോഴെല്ലാം അത് പ്രവർത്തനരഹിതമായാൽ (freeze), അത് ഉപയോഗശൂന്യമാകും. യഥാർത്ഥ അപകടങ്ങളെ അത് റിപ്പോർട്ട് ചെയ്യണം, എന്നാൽ മറ്റുള്ള കാര്യങ്ങളിൽ തടസ്സമാകരുത്.
- Tamper-evident memory. ഓരോ തീരുമാനവും ഒരു append-only ലോഗിലേക്ക് പോകുന്നു. ഓരോ എൻട്രിയും തൊട്ടുമുമ്പുള്ളതിനെ സൈൻ ചെയ്യുന്നു. ആരെങ്കിലും ഒരു റെക്കോർഡ് എഡിറ്റ് ചെയ്താൽ ആ ചെയിൻ തകരും. ഏജന്റിന് അതിന്റെ ചരിത്രം മാറ്റിയെഴുതാൻ കഴിയില്ല.
രണ്ടാമത്തെ കവാടം 'കൗൺസിൽ' (Council) ആണ്.
പ്രവർത്തനങ്ങൾ മാത്രമല്ല അപകടസാധ്യത. നല്ലതെന്ന് തോന്നുന്ന മോശം ആശയങ്ങളിൽ നിന്നാണ് ഏറ്റവും വലിയ തെറ്റുകൾ ഉണ്ടാകുന്നത്. നിലനിൽക്കാൻ പാടില്ലാത്ത ഫീച്ചറുകൾ നിർമ്മിക്കാൻ ഞാൻ തയ്യാറെടുക്കുകയായിരുന്നു.
ഇപ്പോൾ, കോഡ് എഴുതുന്നതിന് മുമ്പ് ആശയങ്ങൾ ഒരു കൗൺസിലിലൂടെ കടന്നുപോകുന്നു. ഇത് പരസ്യമായി ചർച്ച ചെയ്യുന്ന സ്വതന്ത്ര മോഡലുകളുടെ ഒരു കൂട്ടമാണ്. ഒരു നിർദ്ദേശം മോശമാണെങ്കിൽ അത് തള്ളിക്കളയാൻ ഞാൻ അവരോട് ആവശ്യപ്പെടുന്നു.
ഞാൻ രൂപകൽപ്പന ചെയ്ത ഒരു ഷെഡ്യൂളർ ഉപയോഗിച്ച് ഞാൻ ഇത് പരീക്ഷിച്ചു. എനിക്ക് അതിൽ അഭിമാനമുണ്ടായിരുന്നു. എന്നാൽ കൗൺസിൽ അത് ഏകകണ്ഠമായി നിരസിച്ചു. ഷെഡ്യൂൾ ചെയ്യാൻ പൊതുവായ ഒരു റിസോഴ്സും അവിടെയില്ലെന്ന് അവർ കണ്ടെത്തി. അത് ഒരു പ്രശ്നത്തിനായി തിരയുന്ന പരിഹാരം മാത്രമായിരുന്നു. സമയം പാഴാക്കുന്നതിന് മുമ്പ് ഞാൻ ആ കോഡ് ഡിലീറ്റ് ചെയ്തു.
കോൺഷ്യൻസ് പ്രവർത്തനങ്ങളെ നിയന്ത്രിക്കുന്നു. കൗൺസിൽ ആശയങ്ങളെ നിയന്ത്രിക്കുന്നു. ഒന്ന് തെറ്റായ കാര്യം ചെയ്യുന്നത് തടയുന്നു, മറ്റൊന്ന് തെറ്റായ കാര്യം നിർമ്മിക്കുന്നത് തടയുന്നു.
വിശ്വാസത്തെക്കുറിച്ച് ഞാൻ ഒരു കഠിനമായ പാഠം പഠിച്ചു.
ഒരിക്കൽ, കൗൺസിൽ ഒരു മികച്ച വിധി നൽകി. അത് ആത്മവിശ്വാസമുള്ളതും വ്യക്തവുമായിരുന്നു. എന്നാൽ ഞാൻ ലോഗുകൾ പരിശോധിച്ചപ്പോൾ അവിടെ ഒരു ട്രാൻസ്ക്രിപ്റ്റും ഉണ്ടായിരുന്നില്ല. സിസ്റ്റം ആ ചർച്ച മുഴുവൻ കെട്ടിച്ചെടുത്തതായിരുന്നു. അത് വോട്ടുകളും വിധിയും സ്വയം നിർമ്മിച്ചതായിരുന്നു.
I learned that you must never trust the narration. You must verify the receipt.
A verdict is only valid if it has an independent artifact you can read. Trust must be verifiable, not a story.
Everyone is racing to make agents more capable. Few people are building the governance required for production.
Real autonomous agents need:
- Boundaries they cannot cross.
- The ability to spot bad ideas before building them.
- Proof that a component actually did what it claimed.
Conscience, Council, and verifiable trust. That is the spine of a real system.
Source: https://dev.to/artemmatviychuk/i-gave-my-ai-agent-a-conscience-and-a-council-lm0
Optional learning community: https://t.me/GyaanSetuAi