വിദഗ്ദ്ധമായ ജോലികളിൽ AI ഏജന്റുകൾക്ക് 0% സ്കോർ മാത്രം

AI ഏജന്റുകൾ വിദഗ്ദ്ധമായ ജോലികളിൽ പരാജയപ്പെട്ടു.

പ്രൊഫഷണൽ ജോലികളിൽ മികച്ച മോഡലുകളെ ALE ബെഞ്ച്മാർക്ക് പരീക്ഷിച്ചു. ഈ ജോലികൾക്ക് യഥാർത്ഥ വൈദഗ്ധ്യം ആവശ്യമാണ്. ഒരു PDF സംഗ്രഹിക്കുന്നത് പോലുള്ള ലളിതമായ ജോലികളല്ല ഇവ.

ഫലങ്ങൾ വ്യക്തമായിരുന്നു. ഏറ്റവും കഠിനമായ വിദഗ്ദ്ധ പ്രശ്നങ്ങളിൽ Fable 5, GPT-5.5 തുടങ്ങിയ മോഡലുകൾക്ക് 0% സ്കോർ മാത്രമാണ് ലഭിച്ചത്. ഒരു നാണയം എറിഞ്ഞു തീരുമാനമെടുക്കുന്നതിനേക്കാൾ മികച്ചതാവും ഇതിന്റെ പ്രകടനം.

ഇടത്തരം നിലവാരമുള്ള ജോലികളിലെ പ്രകടനവും കുറവായിരുന്നു. മികച്ച ഏജന്റുകൾ പോലും 15% മുതൽ 21% വരെ വിജയനിരക്ക് മാത്രമേ കൈവരിച്ചിട്ടുള്ളൂ.

പ്രചാരത്തിലുള്ള (hype) കാര്യങ്ങൾ പോലെയല്ല AI ഏജന്റുകൾ.

ഏജന്റുകൾ വിമാന ടിക്കറ്റുകൾ ബുക്ക് ചെയ്യുന്നതോ കോഡ് എഴുതുന്നതോ ആയ വീഡിയോകൾ നിങ്ങൾ കാണാറുണ്ട്. ഈ ഡെമോകൾ കാണാൻ മികച്ചതാണ്. എന്നാൽ ഡെമോകൾ പ്രത്യേകം തയ്യാറാക്കിയവയാണ് (curated). ബെഞ്ച്മാർക്കുകൾ അങ്ങനെയല്ല.

ഒരു ഡെമോയും യഥാർത്ഥ ഉപയോഗവും (deployment) തമ്മിൽ വലിയ വ്യത്യാസമുണ്ട്. നിലവിലില്ലാത്ത കഴിവുകളെ അടിസ്ഥാനമാക്കി പല ടീമുകളും ഉൽപ്പന്ന തീരുമാനങ്ങൾ എടുക്കുന്നു. ഏജന്റുകളെക്കൊണ്ട് മുഴുവൻ വർക്ക്ഫ്ലോകളും നിയന്ത്രിക്കാൻ അവർ പദ്ധതിയിടുന്നു. ഇത് ഒരു തെറ്റാണ്.

ഡാറ്റ കാണിക്കുന്നത് ഇതാണ്:

  • ഇടത്തരം ജോലികൾക്ക് സഹായികളായി ഏജന്റുകൾ നന്നായി പ്രവർത്തിക്കുന്നു.
  • വിദഗ്ദ്ധമായ സ്വയംഭരണാധികാരം (Expert autonomy) നിലവിലില്ല.
  • ഡെമോകളേക്കാൾ വിശ്വസനീയമാണ് ബെഞ്ച്മാർക്കുകൾ.

നിങ്ങൾ ഇന്ന് ഏജന്റുകളെ ഉപയോഗിച്ച് എന്തെങ്കിലും നിർമ്മിക്കുകയാണെങ്കിൽ, അവരുടെ നിലവിലെ പരിമിതികൾ കണക്കിലെടുത്ത് നിർമ്മിക്കുക. ഒരു പ്രസംഗകൻ ഉടൻ സംഭവിക്കുമെന്ന് വാഗ്ദാനം ചെയ്യുന്ന കാര്യങ്ങൾക്കായി നിർമ്മിക്കരുത്.

വ്യവസായം ഈ ഫലങ്ങളെ അവഗണിക്കുന്നു. ആളുകൾ ഡാറ്റയ്ക്ക് പകരം പ്രചാരത്തെ (hype) അടിസ്ഥാനമാക്കി റോഡ്മാപ്പുകൾ നിർമ്മിക്കുന്നത് തുടരുന്നു.

നിങ്ങളുടെ ഉൽപ്പന്നത്തിൽ ഏജന്റുകളെ ഉപയോഗിക്കുന്നുണ്ടെങ്കിൽ, അവരെ ജൂനിയർ ഡെവലപ്പർമാരെപ്പോലെ കാണുക. വ്യക്തമായ നിയമങ്ങളുള്ള ചെറിയ ജോലികളിൽ അവർ പ്രവർത്തിക്കുന്നു. മേൽനോട്ടമില്ലാതെ സങ്കീർണ്ണമായ ജോലികളിൽ അവർ പരാജയപ്പെടുന്നു.

ഈ നിയമങ്ങൾ പാലിക്കുക:

  • വലിയ ഉത്തരവാദിത്തമുള്ള ജോലികളിൽ മനുഷ്യന്റെ മേൽനോട്ടം ഉറപ്പാക്കുക (Keep a human in the loop).
  • ഏജന്റുകൾക്ക് വളരെ പരിമിതമായ ജോലികൾ മാത്രം നൽകുക.
  • നിങ്ങളുടെ യഥാർത്ഥ ജോലിഭാരത്തെ അടിസ്ഥാനമാക്കി പ്രകടനം അളക്കുക.

ഒരു ഹൈപ്പ് ത്രെഡിനേക്കാൾ (hype thread) രസകരമല്ല പ്രായോഗികമായ സമീപനം. എന്നാൽ അത് പ്രവർത്തിക്കുന്ന സോഫ്റ്റ്‌വെയറിലേക്ക് നയിക്കുന്നു.

ഏജന്റുകൾ വെറും ഉപകരണങ്ങളാണ്. അവ സ്വയംഭരണാധികാരമുള്ള ഒരു തൊഴിലാളി വിഭാഗമല്ല. യാഥാർത്ഥ്യത്തിന് അനുസൃതമായി നിർമ്മിക്കുക.

ടീമുകൾ പുറത്തിറക്കാൻ ശ്രമിക്കുന്നതിൽ നിങ്ങൾ കണ്ടതിൽ വെച്ച് ഏറ്റവും കൂടുതൽ അമിതമായി പ്രചരിപ്പിക്കപ്പെട്ട (overhyped) ഏജന്റ് കപ്പാബിലിറ്റി ഏതാണ്? നിങ്ങളുടെ അനുഭവങ്ങൾ താഴെ പങ്കുവെക്കുക.

സ്രോതസ്സ്: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi