നിങ്ങളുടെ ഏജന്റ് എല്ലാം പരിശോധിച്ചു. എന്നിട്ടും അത് തെറ്റായിരുന്നു.

ഞാൻ ഒരു മൾട്ടി-ഏജന്റ് വർക്ക്ഫ്ലോ (multi-agent workflow) ആണ് പ്രവർത്തിപ്പിക്കുന്നത്. ഒരു മോഡൽ രൂപകൽപ്പന ചെയ്യുന്നു. മറ്റൊന്ന് കോഡ് എഴുതുന്നു. വേറൊന്ന് അത് പരിശോധിക്കുന്നു. ഞാൻ അന്തിമ ഫലം അംഗീകരിക്കുന്നു.

അടുത്തിടെ, മൂന്ന് പരാജയങ്ങൾ ഈ പൈപ്പ്‌ലൈനിലൂടെ കടന്നുപോയി. ഓരോ ഏജന്റും അതിന്റെ ജോലി കൃത്യമായി ചെയ്തു. സിസ്റ്റം സ്ഥിരതയുള്ളതായിരുന്നു, എങ്കിലും അത് തുടർച്ചയായി തെറ്റുകൾ വരുത്തിക്കൊണ്ടിരുന്നു.

ഇതൊരു ബുദ്ധിശക്തിയുടെ പ്രശ്നമല്ല. ഇതൊരു അതിർവരമ്പുകളുടെ (boundary) പ്രശ്നമാണ്. നിങ്ങൾ നൽകുന്ന സാഹചര്യത്തിനുള്ളിൽ (context) നിങ്ങൾ ആവശ്യപ്പെടുന്നത് എന്താണോ അത് മാത്രമാണ് ഒരു ഏജന്റ് ചെയ്യുന്നത്. പരിശോധനയ്ക്കായി പുതിയ കാര്യങ്ങൾ അത് സ്വയം കണ്ടെത്തില്ല.

യഥാർത്ഥ ലോകത്തുണ്ടായ മൂന്ന് പരാജയങ്ങളും അവ എങ്ങനെ പരിഹരിക്കാം എന്നതും താഴെ നൽകുന്നു:

  1. പരാജയത്തെ മറച്ചുവെക്കുന്ന വിജയം ഒരു ETL പൈപ്പ്‌ലൈൻ ഒരു API-ൽ നിന്ന് ഡാറ്റ ശേഖരിച്ചു. API സെഷൻ കാലാവധി കഴിഞ്ഞു. ഒരു എറർ കോഡിന് (error code) പകരം, API ഒരു HTTP 200 മറുപടിയും JSON-നുള്ളിൽ ഒരു എറർ മെസ്സേജും നൽകി. ഏജന്റ് ഒരു എറർ കോഡിനായി പരിശോധിച്ചു, ഒന്നും കണ്ടെത്താത്തതിനാൽ ഡാറ്റ ശരിയാണെന്ന് കരുതി.
  • പരിഹാരം: സെമാന്റിക് വാലിഡേഷൻ (semantic validation) ഉപയോഗിക്കുക. ഒരു കോൾ വിജയിച്ചോ എന്ന് മാത്രം പരിശോധിക്കരുത്. ലഭിച്ച ഡാറ്റ പ്രതീക്ഷിച്ച ഘടനയുമായും (structure) വരികളുടെ എണ്ണവുമായും (row count) പൊരുത്തപ്പെടുന്നുണ്ടോ എന്ന് പരിശോധിക്കുക.
  1. വിട്ടുപോയ ആർട്ടീഫാക്റ്റുകൾ (Missing artifacts) ഒരു കോഡ് ജനറേറ്റർ ഒരു ചിപ്പിനായി C ഫയലുകൾ നിർമ്മിച്ചു. റിവ്യൂവർ കോഡ് ശരിയാണെന്ന് സ്ഥിരീകരിച്ചു. എന്നിരുന്നാലും, ജനറേറ്റർ ആവശ്യമായ വിഡ്ജറ്റ് ടേബിൾ ഫയൽ (widget table file) നിർമ്മിച്ചില്ല. റിവ്യൂവർ നിലവിലുള്ള ഫയലുകൾ പരിശോധിച്ചു, എന്നാൽ വിട്ടുപോയ ഫയലുകൾക്കായി പരിശോധിച്ചില്ല.
  • പരിഹാരം: ഔട്ട്‌പുട്ടിന്റെ പൂർണ്ണത പരിശോധിക്കുക. ആവശ്യമായ ഫയലുകളുടെ പട്ടിക ആദ്യം തയ്യാറാക്കുക. അടുത്ത ഘട്ടത്തിലേക്ക് പോകുന്നതിന് മുമ്പ് ഓരോ ഫയലും ഉണ്ടെന്നും അവ ശൂന്യമല്ലെന്നും ഉറപ്പുവരുത്തുക.
  1. തെറ്റായ സാങ്കേതിക അവകാശവാദങ്ങൾ ഒരു SDK ഫോൾഡർ RISC-V ചിപ്പിനുള്ളതാണെന്ന് അവകാശപ്പെട്ടു, എന്നാൽ ഹെഡർ കമന്റുകളിൽ അത് CSKY പ്രോസസറിനുള്ളതാണെന്ന് പറഞ്ഞു. ഏജന്റ് ഫോൾഡർ പേരിനെയും കമന്റുകളെയും വിശ്വസിച്ചു. അവകാശവാദം തെറ്റാണെന്ന് തെളിയിക്കുന്ന യഥാർത്ഥ മെഷീൻ ഇൻസ്ട്രക്ഷനുകൾ (machine instructions) അത് അവഗണിച്ചു.
  • പരിഹാരം: ഗ്രൗണ്ട്-ട്രൂത്ത് വെരിഫിക്കേഷൻ (ground-truth verification) ഉപയോഗിക്കുക. ഒരു ഫയൽ എന്തെങ്കിലും അവകാശപ്പെടുന്നുണ്ടെങ്കിൽ, ഒരു കമാൻഡ് ഉപയോഗിച്ച് ആ അവകാശവാദം പരിശോധിക്കുക. കമന്റുകളെയോ ഡയറക്ടറി പേരുകളെയോ വിശ്വസിക്കരുത്. യഥാർത്ഥ ഡാറ്റയെ മാത്രം വിശ്വസിക്കുക.

ഏജന്റുകൾ നിങ്ങൾ എന്ത് പരിശോധിക്കാൻ ആവശ്യപ്പെടുന്നുവോ അത് മാത്രമേ പരിശോധിക്കൂ. "വേറെ എന്തൊക്കെ തെറ്റായിരിക്കാം?" എന്ന് അവ ചോദിക്കില്ല.

നിങ്ങൾ അതിർവരമ്പുകൾ രൂപകൽപ്പന ചെയ്യണം. നിങ്ങളുടെ വർക്ക്ഫ്ലോയുടെ അരികുകളിൽ വെരിഫിക്കേഷൻ ചെക്ക്പോയിന്റുകൾ നിർമ്മിക്കണം.

സ്രോതസ്സ്: https://dev.to/antonio_zhu_e726fd856cd86/your-agent-checked-everything-it-was-still-wrong-18kd

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi