എന്റെ ഏജന്റ് 12 എന്ന് റിപ്പോർട്ട് ചെയ്തു. യഥാർത്ഥ സംഖ്യ 13 ആയിരുന്നു.

ഞാൻ ലോക്കലായി പ്രവർത്തിക്കുന്ന ഒരു കോഡിംഗ് ഏജന്റ് നിർമ്മിക്കുകയാണ്. പ്ലാനിംഗിനായി ഇത് Claude-ഉം കോഡ് ജനറേഷനായി ലോക്കൽ മോഡലുകളും ഉപയോഗിക്കുന്നു. അടുത്തിടെ, ചില ലോഗുകൾ (logs) എണ്ണുക എന്ന ലളിതമായ ഒരു ജോലി ഞാൻ ഏജന്റിനെ ഏൽപ്പിച്ചു.

ഏജന്റ് റിപ്പോർട്ട് ചെയ്തത് 12 ആണ്. മാനുവൽ ബുക്ക് കീപ്പിംഗിന്റെ (manual bookkeeping) മടുപ്പ് കാരണം ഞാൻ അത് ഏതാണ്ട് അംഗീകരിക്കാൻ പോവുകയായിരുന്നു. എന്നാൽ പിന്നീട് ഞാൻ എന്റെ ടെർമിനലിൽ ഒരു മാനുവൽ പരിശോധന നടത്തി. യഥാർത്ഥ എണ്ണം 13 ആയിരുന്നു.

ഒരു എൻട്രിക്ക് ക്രമരഹിതമായ ആകൃതി (irregular shape) ഉണ്ടായിരുന്നതുകൊണ്ട് ഏജന്റ് അത് വിട്ടുപോയി. ഏജന്റ് ഹാലൂസിനേഷൻ (hallucinating) നടത്തുകയല്ല ചെയ്തത്. അത് "ഏതാണ്ട് ശരി" മാത്രമായിരുന്നു. ഇതാണ് ഏറ്റവും അപകടകരമായ തരം തെറ്റ്. വിശ്വസിക്കാൻ പാകത്തിൽ ഇത് ശരിയാണെന്ന് തോന്നിപ്പിക്കും.

ഇതിലും മോശമായ കാര്യം, അവസാന സംഗ്രഹം (summary metric) ശരിയാണെന്ന് തോന്നിപ്പിച്ചു എന്നതാണ്. റൗണ്ടിംഗും ഗ്രൂപ്പിംഗും ആ തെറ്റിനെ മറച്ചുവെച്ചു. ഞാൻ അവസാന റിപ്പോർട്ട് മാത്രം നോക്കിയിരുന്നെങ്കിൽ ഒരു തെറ്റും കാണില്ലായിരുന്നു. എന്നാൽ റോ ഡാറ്റ (raw data) തെറ്റായിരുന്നു. ഒരിക്കൽ നിങ്ങളുടെ റോ മെഷർമെന്റ് (raw measurement) തെറ്റിയാൽ, ഭാവിയിലെ എല്ലാ റിപ്പോർട്ടുകളും ആ തെറ്റ് ഉൾക്കൊള്ളും.

വിശ്വാസത്തെക്കുറിച്ചും അളവുകളെക്കുറിച്ചും (measurement) ഞാൻ ഒരു കഠിനമായ പാഠം പഠിച്ചു.

ജോലി ചെയ്യുന്ന സിസ്റ്റത്തെ തന്നെ ആ ജോലി വിലയിരുത്താൻ അനുവദിച്ചാൽ, നിങ്ങൾക്ക് ഒരു പ്രശ്നമുണ്ട്. നിങ്ങൾ പരീക്ഷാർത്ഥിയെ തന്നെ പരീക്ഷകനാക്കി മാറ്റിയിരിക്കുന്നു. ഒരു പ്രോബബിലിസ്റ്റിക് മോഡൽ (probabilistic model) ഒരിക്കലും നിങ്ങളുടെ ഏക സത്യസന്ധമായ ഉറവിടമാകരുത്.

ഞാൻ ഇപ്പോൾ രണ്ട് പുതിയ നിയമങ്ങൾ പാലിക്കുന്നു:

  • ഒരു മനുഷ്യൻ ആദ്യം ഓട്ടോമേഷൻ സാക്ഷ്യം വഹിക്കണം. സ്വയം അളക്കുന്ന ഒരു സിസ്റ്റത്തെ വിശ്വസിക്കുന്നതിന് മുമ്പ്, ഞാൻ തന്നെ ഒരു ഡെറ്റർമിനിസ്റ്റിക് കൗണ്ട് (deterministic count) നടത്തുന്നു. ടെർമിനലിൽ സംഖ്യകൾ വരുന്നത് ഞാൻ നേരിട്ട് കാണുന്നു. പലതവണ പരീക്ഷിച്ചതിന് ശേഷം മെഷീനും മനുഷ്യനും കൃത്യമായി ഒത്തുപോകുന്നു എന്ന് ഉറപ്പായാൽ മാത്രമേ ഞാൻ ഈ നിയമത്തിൽ ഇളവ് വരുത്തൂ.

  • അളവുകളെ നിരീക്ഷിക്കാവുന്ന യൂണിറ്റുകളുമായി ബന്ധിപ്പിക്കുക. ഒരു മനുഷ്യന് കാണാൻ കഴിയുന്ന കാര്യങ്ങൾ തന്നെയാണ് ഏജന്റ് എണ്ണുന്നത് എന്ന് ഞാൻ ഉറപ്പാക്കുന്നു. ഡാറ്റാ സെറ്റ് കൃത്യമല്ലെങ്കിൽ (loose), സംഖ്യകളിൽ വ്യത്യാസം വരും. ഡാറ്റാ സെറ്റ് കൃത്യമാണെങ്കിൽ (tight), നമുക്ക് ഫലങ്ങൾ യഥാർത്ഥത്തിൽ താരതമ്യം ചെയ്യാൻ കഴിയും.

ഈ രീതി സാവധാനത്തിലുള്ളതാണ്. ഇത് എപ്പോഴും വലിയ തോതിൽ വ്യാപിപ്പിക്കാൻ (scale) കഴിയില്ലായിരിക്കാം. എന്നാൽ വിശ്വാസത്തിന്റെ അടിത്തറ പണിയുന്നത് ഇങ്ങനെയാണ്.

നിങ്ങൾക്ക് കോഡ് എഴുതാൻ AI-യെ അനുവദിക്കാം. വിശകലനം (analysis) നടത്താൻ AI-യെ അനുവദിക്കാം. എന്നാൽ പ്രധാനപ്പെട്ട സംഖ്യകളുടെ കാര്യത്തിൽ, ഒരു ഡെറ്റർമിനിസ്റ്റിക് പ്രക്രിയ (deterministic process) തന്നെയായിരിക്കണം അവസാന സാക്ഷി.

നിങ്ങൾ എവിടെയാണ് അതിർവരമ്പുകൾ നിശ്ചയിക്കുന്നത്? ഒരു സംഖ്യ കൈകൊണ്ട് പരിശോധിക്കാൻ പാകത്തിൽ പ്രധാനപ്പെട്ടതാണെന്ന് നിങ്ങൾ എപ്പോഴാണ് തീരുമാനിക്കുന്നത്?

Source: https://dev.to/josephyeo/my-agent-reported-12-the-real-number-was-13-5864

Optional learning community: https://t.me/GyaanSetuAi