AI ഏജന്റുകൾ ഇപ്പോൾ പ്രൊഫഷണൽ നിലവാരമുള്ള ഫ്രീലാൻസ് ജോലികളുടെ 16% പൂർത്തിയാക്കുന്നു
സങ്കീർണ്ണവും വാണിജ്യപരമായി മൂല്യമുള്ളതുമായ ജോലികൾ കൈകാര്യം ചെയ്യാനുള്ള AI ഏജന്റുകളുടെ വർദ്ധിച്ചുവരുന്ന കഴിവ് കാരണം റിമോട്ട് തൊഴിൽ മേഖല അതിവേഗം മാറിക്കൊണ്ടിരിക്കുകയാണ്. പ്രൊഫഷണൽ നിലവാരമുള്ള ഫ്രീലാൻസ് ജോലികൾ ഓട്ടോമേറ്റ് ചെയ്യപ്പെടുന്ന നിരക്ക് എട്ട് മാസത്തിൽ താഴെയായി നാല് മടങ്ങ് വർദ്ധിച്ചതായി പുതിയ കണക്കുകൾ വെളിപ്പെടുത്തുന്നു.
റിമോട്ട് ലേബർ ഇൻഡക്സിന്റെ (Remote Labor Index) അതിവേഗ വളർച്ച
Scale Labs-മായി സഹകരിച്ച് Center for AI Safety (CAIS) വികസിപ്പിച്ചെടുത്ത ഒരു ബെഞ്ച്മാർക്കായ Remote Labor Index (RLI), പണം നൽകുന്ന ക്ലയന്റുകൾക്ക് സ്വീകാര്യമായ നിലവാരത്തിൽ AI ഏജന്റുകൾ എത്രത്തോളം ഫ്രീലാൻസ് പ്രോജക്റ്റുകൾ പൂർത്തിയാക്കുന്നു എന്ന് നിരീക്ഷിക്കുന്നു. ലളിതമായ ടെക്സ്റ്റ് ജനറേഷൻ ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് വ്യത്യസ്തമായി, 3D/CAD, ആർക്കിടെക്ചർ, ഗ്രാഫിക് ഡിസൈൻ, വീഡിയോ ആനിമേഷൻ, ഓഡിയോ എഞ്ചിനീയറിംഗ്, വെബ് ആപ്പ് ഡെവലപ്മെന്റ് തുടങ്ങിയ ഉയർന്ന ഉത്തരവാദിത്തമുള്ള മേഖലകളിലാണ് RLI ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്.
358 സാക്ഷ്യപ്പെടുത്തിയ ഫ്രീലാൻസർമാരിൽ നിന്ന് ശേഖരിച്ച, ആകെ 144,000 ഡോളർ മൂല്യമുള്ള 240 പ്രോജക്റ്റുകൾ ഈ പഠനം വിശകലനം ചെയ്തു. ഇതിന്റെ ഫലങ്ങൾ കഴിവുകളിൽ ഉണ്ടായ വലിയ കുതിച്ചുചാട്ടമാണ് കാണിക്കുന്നത്: വെറും എട്ട് മാസം മുമ്പ്, ഓട്ടോമേഷൻ നിരക്ക് വെറും 2.5 ശതമാനം മാത്രമായിരുന്നു. ഇന്ന് അത് 16.1 ശതമാനമായി ഉയർന്നു കഴിഞ്ഞു.
ഓട്ടോമേഷന്റെ പുതിയ അതിർത്തിയിൽ Fable 5 മുന്നിൽ
ഏറ്റവും പുതിയ RLI ഫലങ്ങൾ മോഡലുകളുടെ പ്രകടനത്തിൽ ഉണ്ടായ വലിയ മുന്നേറ്റം ചൂണ്ടിക്കാണിക്കുന്നു, ഇതിൽ Fable 5 ആണ് നിലവിലെ നേതാവായി ഉയർന്നുവരുന്നത്. Fable 5 16.1 ശതമാനം ഓട്ടോമേഷൻ നിരക്ക് കൈവരിച്ചു, ഇത് അതിന്റെ ഏറ്റവും അടുത്ത എതിരാളിയായ Opus 4.8-ന്റെ (8.3 ശതമാനം) പ്രകടനത്തിന്റെ ഇരട്ടിയാണ്. 6.3 ശതമാനം കൈവരിച്ച GPT-5.5 മറ്റ് ശ്രദ്ധേയമായ പ്രകടനങ്ങളിൽ ഒന്നാണ്.
ഈ ദ്രുതഗതിയിലുള്ള പുരോഗതി സ്പെഷ്യലൈസ്ഡ് ഏജന്റിക് വർക്ക്ഫ്ലോകളുടെ (agentic workflows) വർദ്ധിച്ചുവരുന്ന കഴിവുകളെ അടിവരയിടുന്നു. ഈ ഫലങ്ങൾ കൈവരിക്കുന്നതിനായി, Blender, GIMP, Audacity തുടങ്ങിയ 30-ലധികം പ്രൊഫഷണൽ ആപ്ലിക്കേഷനുകൾ സജ്ജീകരിച്ചിട്ടുള്ള വെർച്വൽ Linux മെഷീനുകളാണ് ടെസ്റ്റിംഗ് എൻവയോൺമെന്റിൽ ഉപയോഗിക്കുന്നത്. ഓരോ പ്രോജക്റ്റിനും ഏജന്റുകൾക്ക് 24 മണിക്കൂർ വരെ കമ്പ്യൂട്ട് സമയം നൽകുന്നുണ്ട്. കൂടാതെ, ഒരു മനുഷ്യ ക്ലയന്റിന്റെ ആവശ്യകതകൾ അനുകരിക്കുന്നതിനായി, റിവ്യൂ ചെയ്യാനും തിരുത്തലുകൾ നിർദ്ദേശിക്കാനും സഹായിക്കുന്ന ഒരു സെക്കൻഡറി AI ഏജന്റായ "critic loop" ഇവ ഉപയോഗിക്കുന്നു.
AI ജഡ്ജിമാരും പ്രൊഫഷണൽ സോഫ്റ്റ്വെയറുകളും നേരിടുന്ന പരിമിതികൾ
ഈ നേട്ടങ്ങൾക്കിടയിലും, റിപ്പോർട്ട് ഒരു നിർണ്ണായകമായ തടസ്സം ചൂണ്ടിക്കാണിക്കുന്നു: പ്രൊഫഷണൽ കൃത്യതയുടെ "അവസാന ഘട്ടത്തിൽ" (last mile) AI ഏജന്റുകൾ ഇപ്പോഴും ബുദ്ധിമുട്ടുന്നു. ഉദാഹരണത്തിന്, ആർക്കിടെക്ചർ ജോലികളിൽ, GPT-5.5 ആകർഷകമായ വിഷ്വൽ റെൻഡറുകൾ (visual renders) നിർമ്മിച്ചെങ്കിലും, അതിന്റെ അടിസ്ഥാനപരമായ 3D ജ്യാമിതിയിൽ (3D geometry) വലിയ പിഴവുകൾ ഉണ്ടെന്ന് കണ്ടെത്തി.
AI ജഡ്ജിമാരാൽ മനുഷ്യരായ മൂല്യനിർണ്ണയിതാക്കളെ (human evaluators) ഇനിയും മാറ്റിസ്ഥാപിക്കാനാവില്ല എന്നത് ഈ പഠനത്തിലെ പ്രധാന കണ്ടെത്തലുകളിൽ ഒന്നാണ്. പരിശോധനയിൽ, AI ജഡ്ജിമാർ വളരെ ലളിതമായി കാര്യങ്ങളെ കാണുന്നതായി കണ്ടെത്തി; GPT-5.5-ന്റെ കാര്യത്തിൽ, AI മൂല്യനിർണ്ണയിതാവ് നൽകിയ സ്കോർ മനുഷ്യർ സാക്ഷ്യപ്പെടുത്തിയ യഥാർത്ഥ ഗുണനിലവാരത്തേക്കാൾ മൂന്നിരട്ടി കൂടുതലായിരുന്നു. പ്രൊഫഷണൽ ജോലികൾ ശരിയായി വിലയിരുത്തണമെങ്കിൽ സ്പെഷ്യലൈസ്ഡ് സോഫ്റ്റ്വെയറുകളുമായി ആഴത്തിൽ സംവദിക്കാനുള്ള കഴിവ് ആവശ്യമാണ്—ഈ മേഖലയിൽ നിലവിലെ AI ഏജന്റുകൾ ഇപ്പോഴും വലിയ വെല്ലുവിളികൾ നേരിടുന്നുണ്ട്. ഈ വ്യത്യാസത്തിന് കാരണം ഇതാണ്.
ഏജന്റുകൾ ലളിതമായ ചാറ്റ് ഇന്റർഫേസുകളിൽ നിന്ന് സങ്കീർണ്ണമായ ഗ്രാഫിക്കൽ പ്രോഗ്രാമുകൾ പ്രവർത്തിപ്പിക്കുന്നതിലേക്ക് മാറുമ്പോൾ, ഡിജിറ്റൽ സമ്പദ്വ്യവസ്ഥയിൽ "ജോലി" എങ്ങനെ നിർവചിക്കപ്പെടുന്നുവെന്നും നിർവ്വഹിക്കപ്പെടുന്നുവെന്നും എന്ന കാര്യത്തിൽ വ്യവസായം ഒരു അടിസ്ഥാനപരമായ മാറ്റത്തിന് സാക്ഷ്യം വഹിക്കുകയാണ്.
പ്രധാന വിവരങ്ങൾ
- അതിവേഗ വളർച്ച: പ്രൊഫഷണൽ ഫ്രീലാൻസ് ജോലികൾ ഓട്ടോമേറ്റ് ചെയ്യപ്പെടുന്ന നിരക്ക് എട്ട് മാസത്തിൽ താഴെയായി 2.5%-ൽ നിന്ന് 16.1%-ലേക്ക് ഉയർന്നു.
- മോഡൽ നേതൃത്വം: 16.1% ഓട്ടോമേഷൻ നിരക്കുമായി Fable 5 നിലവിൽ ഈ മേഖലയിൽ മുന്നിൽ നിൽക്കുന്നു, ഇത് Opus 4.8 (8.3%), GPT-5.5 (6.3%) എന്നിവയേക്കാൾ മികച്ച പ്രകടനമാണ്.
- മനുഷ്യന്റെ ആവശ്യകത: AI ജഡ്ജിമാർ കാര്യങ്ങളെ അമിതമായി അനുകൂലിക്കുന്ന പ്രവണതയുള്ളവരും സ്പെഷ്യലൈസ്ഡ് സോഫ്റ്റ്വെയർ ഫയലുകളിലെ ഘടനാപരമായ പിഴവുകൾ കണ്ടെത്താൻ കഴിവില്ലാത്തവരുമായതിനാൽ, മനുഷ്യരായ മൂല്യനിർണ്ണയിതാക്കൾ ഇപ്പോഴും അത്യാവശ്യമാണ്.
