My Agent Reported 12. The Real Number Was 13.

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 ആഴ്ച മുമ്പ്2min read

My Agent Reported 12. The Real Number Was 13.

എന്റെ ഏജന്റ് 12 എന്ന് റിപ്പോർട്ട് ചെയ്തു. യഥാർത്ഥ സംഖ്യ 13 ആയിരുന്നു.

ഞാൻ ലോക്കലായി പ്രവർത്തിക്കുന്ന ഒരു കോഡിംഗ് ഏജന്റ് നിർമ്മിക്കുകയാണ്. പ്ലാനിംഗിനായി ഇത് Claude-ഉം കോഡ് ജനറേഷനായി ലോക്കൽ മോഡലുകളും ഉപയോഗിക്കുന്നു. അടുത്തിടെ, ചില ലോഗുകൾ (logs) എണ്ണുക എന്ന ലളിതമായ ഒരു ജോലി ഞാൻ ഏജന്റിനെ ഏൽപ്പിച്ചു.

ഏജന്റ് റിപ്പോർട്ട് ചെയ്തത് 12 ആണ്. മാനുവൽ ബുക്ക് കീപ്പിംഗിന്റെ (manual bookkeeping) മടുപ്പ് കാരണം ഞാൻ അത് ഏതാണ്ട് അംഗീകരിക്കാൻ പോവുകയായിരുന്നു. എന്നാൽ പിന്നീട് ഞാൻ എന്റെ ടെർമിനലിൽ ഒരു മാനുവൽ പരിശോധന നടത്തി. യഥാർത്ഥ എണ്ണം 13 ആയിരുന്നു.

ഒരു എൻട്രിക്ക് ക്രമരഹിതമായ ആകൃതി (irregular shape) ഉണ്ടായിരുന്നതുകൊണ്ട് ഏജന്റ് അത് വിട്ടുപോയി. ഏജന്റ് ഹാലൂസിനേഷൻ (hallucinating) നടത്തുകയല്ല ചെയ്തത്. അത് "ഏതാണ്ട് ശരി" മാത്രമായിരുന്നു. ഇതാണ് ഏറ്റവും അപകടകരമായ തരം തെറ്റ്. വിശ്വസിക്കാൻ പാകത്തിൽ ഇത് ശരിയാണെന്ന് തോന്നിപ്പിക്കും.

ഇതിലും മോശമായ കാര്യം, അവസാന സംഗ്രഹം (summary metric) ശരിയാണെന്ന് തോന്നിപ്പിച്ചു എന്നതാണ്. റൗണ്ടിംഗും ഗ്രൂപ്പിംഗും ആ തെറ്റിനെ മറച്ചുവെച്ചു. ഞാൻ അവസാന റിപ്പോർട്ട് മാത്രം നോക്കിയിരുന്നെങ്കിൽ ഒരു തെറ്റും കാണില്ലായിരുന്നു. എന്നാൽ റോ ഡാറ്റ (raw data) തെറ്റായിരുന്നു. ഒരിക്കൽ നിങ്ങളുടെ റോ മെഷർമെന്റ് (raw measurement) തെറ്റിയാൽ, ഭാവിയിലെ എല്ലാ റിപ്പോർട്ടുകളും ആ തെറ്റ് ഉൾക്കൊള്ളും.

വിശ്വാസത്തെക്കുറിച്ചും അളവുകളെക്കുറിച്ചും (measurement) ഞാൻ ഒരു കഠിനമായ പാഠം പഠിച്ചു.

ജോലി ചെയ്യുന്ന സിസ്റ്റത്തെ തന്നെ ആ ജോലി വിലയിരുത്താൻ അനുവദിച്ചാൽ, നിങ്ങൾക്ക് ഒരു പ്രശ്നമുണ്ട്. നിങ്ങൾ പരീക്ഷാർത്ഥിയെ തന്നെ പരീക്ഷകനാക്കി മാറ്റിയിരിക്കുന്നു. ഒരു പ്രോബബിലിസ്റ്റിക് മോഡൽ (probabilistic model) ഒരിക്കലും നിങ്ങളുടെ ഏക സത്യസന്ധമായ ഉറവിടമാകരുത്.

ഞാൻ ഇപ്പോൾ രണ്ട് പുതിയ നിയമങ്ങൾ പാലിക്കുന്നു:

ഒരു മനുഷ്യൻ ആദ്യം ഓട്ടോമേഷൻ സാക്ഷ്യം വഹിക്കണം. സ്വയം അളക്കുന്ന ഒരു സിസ്റ്റത്തെ വിശ്വസിക്കുന്നതിന് മുമ്പ്, ഞാൻ തന്നെ ഒരു ഡെറ്റർമിനിസ്റ്റിക് കൗണ്ട് (deterministic count) നടത്തുന്നു. ടെർമിനലിൽ സംഖ്യകൾ വരുന്നത് ഞാൻ നേരിട്ട് കാണുന്നു. പലതവണ പരീക്ഷിച്ചതിന് ശേഷം മെഷീനും മനുഷ്യനും കൃത്യമായി ഒത്തുപോകുന്നു എന്ന് ഉറപ്പായാൽ മാത്രമേ ഞാൻ ഈ നിയമത്തിൽ ഇളവ് വരുത്തൂ.
അളവുകളെ നിരീക്ഷിക്കാവുന്ന യൂണിറ്റുകളുമായി ബന്ധിപ്പിക്കുക. ഒരു മനുഷ്യന് കാണാൻ കഴിയുന്ന കാര്യങ്ങൾ തന്നെയാണ് ഏജന്റ് എണ്ണുന്നത് എന്ന് ഞാൻ ഉറപ്പാക്കുന്നു. ഡാറ്റാ സെറ്റ് കൃത്യമല്ലെങ്കിൽ (loose), സംഖ്യകളിൽ വ്യത്യാസം വരും. ഡാറ്റാ സെറ്റ് കൃത്യമാണെങ്കിൽ (tight), നമുക്ക് ഫലങ്ങൾ യഥാർത്ഥത്തിൽ താരതമ്യം ചെയ്യാൻ കഴിയും.

ഈ രീതി സാവധാനത്തിലുള്ളതാണ്. ഇത് എപ്പോഴും വലിയ തോതിൽ വ്യാപിപ്പിക്കാൻ (scale) കഴിയില്ലായിരിക്കാം. എന്നാൽ വിശ്വാസത്തിന്റെ അടിത്തറ പണിയുന്നത് ഇങ്ങനെയാണ്.

നിങ്ങൾക്ക് കോഡ് എഴുതാൻ AI-യെ അനുവദിക്കാം. വിശകലനം (analysis) നടത്താൻ AI-യെ അനുവദിക്കാം. എന്നാൽ പ്രധാനപ്പെട്ട സംഖ്യകളുടെ കാര്യത്തിൽ, ഒരു ഡെറ്റർമിനിസ്റ്റിക് പ്രക്രിയ (deterministic process) തന്നെയായിരിക്കണം അവസാന സാക്ഷി.

നിങ്ങൾ എവിടെയാണ് അതിർവരമ്പുകൾ നിശ്ചയിക്കുന്നത്? ഒരു സംഖ്യ കൈകൊണ്ട് പരിശോധിക്കാൻ പാകത്തിൽ പ്രധാനപ്പെട്ടതാണെന്ന് നിങ്ങൾ എപ്പോഴാണ് തീരുമാനിക്കുന്നത്?

Source: https://dev.to/josephyeo/my-agent-reported-12-the-real-number-was-13-5864

Optional learning community: https://t.me/GyaanSetuAi

My Agent Reported 12. The Real Number Was 13.

Continue reading

എന്റെ പ്രൊഡക്ഷൻ ഏജന്റിനെ തകർത്ത ആ 'null' ഇൻപുട്ട്

We Stopped Trusting Models. Then We Stopped Trusting Our Own Numbers.

പ്രൊഡക്ഷനിൽ AI ഏജന്റുകൾ പ്രവർത്തിപ്പിക്കുമ്പോൾ ഞാൻ പഠിച്ച കാര്യങ്ങൾ

പ്രൊഡക്ഷൻ AI ഏജന്റുകൾ നിർമ്മിക്കാൻ ഞാൻ ഉപയോഗിക്കുന്ന കൃത്യമായ സ്റ്റാക്ക്

ഏജന്റിക് ലൂപ്പ്: ഒരു പ്രായോഗിക ഫീൽഡ് ഗൈഡ്