AI ഏജന്റുകൾ ഇപ്പോൾ ഫ്രീലാൻസ് ജോലികളിൽ 16% പ്രൊഫഷണൽ നിലവാരത്തിൽ പൂർത്തിയാക്കുന്നു

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialമിനിഞ്ഞാന്ന്3min read

AI ഏജന്റുകൾ ഇപ്പോൾ ഫ്രീലാൻസ് ജോലികളിൽ 16% പ്രൊഫഷണൽ നിലവാരത്തിൽ പൂർത്തിയാക്കുന്നു

In this article

AI ഏജന്റുകൾ ഇപ്പോൾ പ്രൊഫഷണൽ നിലവാരമുള്ള ഫ്രീലാൻസ് ജോലികളുടെ 16% പൂർത്തിയാക്കുന്നു

സങ്കീർണ്ണവും വാണിജ്യപരമായി മൂല്യമുള്ളതുമായ ജോലികൾ കൈകാര്യം ചെയ്യാനുള്ള AI ഏജന്റുകളുടെ വർദ്ധിച്ചുവരുന്ന കഴിവ് കാരണം റിമോട്ട് തൊഴിൽ മേഖല അതിവേഗം മാറിക്കൊണ്ടിരിക്കുകയാണ്. പ്രൊഫഷണൽ നിലവാരമുള്ള ഫ്രീലാൻസ് ജോലികൾ ഓട്ടോമേറ്റ് ചെയ്യപ്പെടുന്ന നിരക്ക് എട്ട് മാസത്തിൽ താഴെയായി നാല് മടങ്ങ് വർദ്ധിച്ചതായി പുതിയ കണക്കുകൾ വെളിപ്പെടുത്തുന്നു.

റിമോട്ട് ലേബർ ഇൻഡക്സിന്റെ (Remote Labor Index) അതിവേഗ വളർച്ച

Scale Labs-മായി സഹകരിച്ച് Center for AI Safety (CAIS) വികസിപ്പിച്ചെടുത്ത ഒരു ബെഞ്ച്മാർക്കായ Remote Labor Index (RLI), പണം നൽകുന്ന ക്ലയന്റുകൾക്ക് സ്വീകാര്യമായ നിലവാരത്തിൽ AI ഏജന്റുകൾ എത്രത്തോളം ഫ്രീലാൻസ് പ്രോജക്റ്റുകൾ പൂർത്തിയാക്കുന്നു എന്ന് നിരീക്ഷിക്കുന്നു. ലളിതമായ ടെക്സ്റ്റ് ജനറേഷൻ ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് വ്യത്യസ്തമായി, 3D/CAD, ആർക്കിടെക്ചർ, ഗ്രാഫിക് ഡിസൈൻ, വീഡിയോ ആനിമേഷൻ, ഓഡിയോ എഞ്ചിനീയറിംഗ്, വെബ് ആപ്പ് ഡെവലപ്‌മെന്റ് തുടങ്ങിയ ഉയർന്ന ഉത്തരവാദിത്തമുള്ള മേഖലകളിലാണ് RLI ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്.

358 സാക്ഷ്യപ്പെടുത്തിയ ഫ്രീലാൻസർമാരിൽ നിന്ന് ശേഖരിച്ച, ആകെ 144,000 ഡോളർ മൂല്യമുള്ള 240 പ്രോജക്റ്റുകൾ ഈ പഠനം വിശകലനം ചെയ്തു. ഇതിന്റെ ഫലങ്ങൾ കഴിവുകളിൽ ഉണ്ടായ വലിയ കുതിച്ചുചാട്ടമാണ് കാണിക്കുന്നത്: വെറും എട്ട് മാസം മുമ്പ്, ഓട്ടോമേഷൻ നിരക്ക് വെറും 2.5 ശതമാനം മാത്രമായിരുന്നു. ഇന്ന് അത് 16.1 ശതമാനമായി ഉയർന്നു കഴിഞ്ഞു.

ഓട്ടോമേഷന്റെ പുതിയ അതിർത്തിയിൽ Fable 5 മുന്നിൽ

ഏറ്റവും പുതിയ RLI ഫലങ്ങൾ മോഡലുകളുടെ പ്രകടനത്തിൽ ഉണ്ടായ വലിയ മുന്നേറ്റം ചൂണ്ടിക്കാണിക്കുന്നു, ഇതിൽ Fable 5 ആണ് നിലവിലെ നേതാവായി ഉയർന്നുവരുന്നത്. Fable 5 16.1 ശതമാനം ഓട്ടോമേഷൻ നിരക്ക് കൈവരിച്ചു, ഇത് അതിന്റെ ഏറ്റവും അടുത്ത എതിരാളിയായ Opus 4.8-ന്റെ (8.3 ശതമാനം) പ്രകടനത്തിന്റെ ഇരട്ടിയാണ്. 6.3 ശതമാനം കൈവരിച്ച GPT-5.5 മറ്റ് ശ്രദ്ധേയമായ പ്രകടനങ്ങളിൽ ഒന്നാണ്.

ഈ ദ്രുതഗതിയിലുള്ള പുരോഗതി സ്പെഷ്യലൈസ്ഡ് ഏജന്റിക് വർക്ക്ഫ്ലോകളുടെ (agentic workflows) വർദ്ധിച്ചുവരുന്ന കഴിവുകളെ അടിവരയിടുന്നു. ഈ ഫലങ്ങൾ കൈവരിക്കുന്നതിനായി, Blender, GIMP, Audacity തുടങ്ങിയ 30-ലധികം പ്രൊഫഷണൽ ആപ്ലിക്കേഷനുകൾ സജ്ജീകരിച്ചിട്ടുള്ള വെർച്വൽ Linux മെഷീനുകളാണ് ടെസ്റ്റിംഗ് എൻവയോൺമെന്റിൽ ഉപയോഗിക്കുന്നത്. ഓരോ പ്രോജക്റ്റിനും ഏജന്റുകൾക്ക് 24 മണിക്കൂർ വരെ കമ്പ്യൂട്ട് സമയം നൽകുന്നുണ്ട്. കൂടാതെ, ഒരു മനുഷ്യ ക്ലയന്റിന്റെ ആവശ്യകതകൾ അനുകരിക്കുന്നതിനായി, റിവ്യൂ ചെയ്യാനും തിരുത്തലുകൾ നിർദ്ദേശിക്കാനും സഹായിക്കുന്ന ഒരു സെക്കൻഡറി AI ഏജന്റായ "critic loop" ഇവ ഉപയോഗിക്കുന്നു.

AI ജഡ്ജിമാരും പ്രൊഫഷണൽ സോഫ്റ്റ്‌വെയറുകളും നേരിടുന്ന പരിമിതികൾ

ഈ നേട്ടങ്ങൾക്കിടയിലും, റിപ്പോർട്ട് ഒരു നിർണ്ണായകമായ തടസ്സം ചൂണ്ടിക്കാണിക്കുന്നു: പ്രൊഫഷണൽ കൃത്യതയുടെ "അവസാന ഘട്ടത്തിൽ" (last mile) AI ഏജന്റുകൾ ഇപ്പോഴും ബുദ്ധിമുട്ടുന്നു. ഉദാഹരണത്തിന്, ആർക്കിടെക്ചർ ജോലികളിൽ, GPT-5.5 ആകർഷകമായ വിഷ്വൽ റെൻഡറുകൾ (visual renders) നിർമ്മിച്ചെങ്കിലും, അതിന്റെ അടിസ്ഥാനപരമായ 3D ജ്യാമിതിയിൽ (3D geometry) വലിയ പിഴവുകൾ ഉണ്ടെന്ന് കണ്ടെത്തി.

AI ജഡ്ജിമാരാൽ മനുഷ്യരായ മൂല്യനിർണ്ണയിതാക്കളെ (human evaluators) ഇനിയും മാറ്റിസ്ഥാപിക്കാനാവില്ല എന്നത് ഈ പഠനത്തിലെ പ്രധാന കണ്ടെത്തലുകളിൽ ഒന്നാണ്. പരിശോധനയിൽ, AI ജഡ്ജിമാർ വളരെ ലളിതമായി കാര്യങ്ങളെ കാണുന്നതായി കണ്ടെത്തി; GPT-5.5-ന്റെ കാര്യത്തിൽ, AI മൂല്യനിർണ്ണയിതാവ് നൽകിയ സ്കോർ മനുഷ്യർ സാക്ഷ്യപ്പെടുത്തിയ യഥാർത്ഥ ഗുണനിലവാരത്തേക്കാൾ മൂന്നിരട്ടി കൂടുതലായിരുന്നു. പ്രൊഫഷണൽ ജോലികൾ ശരിയായി വിലയിരുത്തണമെങ്കിൽ സ്പെഷ്യലൈസ്ഡ് സോഫ്റ്റ്‌വെയറുകളുമായി ആഴത്തിൽ സംവദിക്കാനുള്ള കഴിവ് ആവശ്യമാണ്—ഈ മേഖലയിൽ നിലവിലെ AI ഏജന്റുകൾ ഇപ്പോഴും വലിയ വെല്ലുവിളികൾ നേരിടുന്നുണ്ട്. ഈ വ്യത്യാസത്തിന് കാരണം ഇതാണ്.

ഏജന്റുകൾ ലളിതമായ ചാറ്റ് ഇന്റർഫേസുകളിൽ നിന്ന് സങ്കീർണ്ണമായ ഗ്രാഫിക്കൽ പ്രോഗ്രാമുകൾ പ്രവർത്തിപ്പിക്കുന്നതിലേക്ക് മാറുമ്പോൾ, ഡിജിറ്റൽ സമ്പദ്‌വ്യവസ്ഥയിൽ "ജോലി" എങ്ങനെ നിർവചിക്കപ്പെടുന്നുവെന്നും നിർവ്വഹിക്കപ്പെടുന്നുവെന്നും എന്ന കാര്യത്തിൽ വ്യവസായം ഒരു അടിസ്ഥാനപരമായ മാറ്റത്തിന് സാക്ഷ്യം വഹിക്കുകയാണ്.

പ്രധാന വിവരങ്ങൾ

അതിവേഗ വളർച്ച: പ്രൊഫഷണൽ ഫ്രീലാൻസ് ജോലികൾ ഓട്ടോമേറ്റ് ചെയ്യപ്പെടുന്ന നിരക്ക് എട്ട് മാസത്തിൽ താഴെയായി 2.5%-ൽ നിന്ന് 16.1%-ലേക്ക് ഉയർന്നു.
മോഡൽ നേതൃത്വം: 16.1% ഓട്ടോമേഷൻ നിരക്കുമായി Fable 5 നിലവിൽ ഈ മേഖലയിൽ മുന്നിൽ നിൽക്കുന്നു, ഇത് Opus 4.8 (8.3%), GPT-5.5 (6.3%) എന്നിവയേക്കാൾ മികച്ച പ്രകടനമാണ്.
മനുഷ്യന്റെ ആവശ്യകത: AI ജഡ്ജിമാർ കാര്യങ്ങളെ അമിതമായി അനുകൂലിക്കുന്ന പ്രവണതയുള്ളവരും സ്പെഷ്യലൈസ്ഡ് സോഫ്റ്റ്‌വെയർ ഫയലുകളിലെ ഘടനാപരമായ പിഴവുകൾ കണ്ടെത്താൻ കഴിവില്ലാത്തവരുമായതിനാൽ, മനുഷ്യരായ മൂല്യനിർണ്ണയിതാക്കൾ ഇപ്പോഴും അത്യാവശ്യമാണ്.

AI ഏജന്റുകൾ ഇപ്പോൾ ഫ്രീലാൻസ് ജോലികളിൽ 16% പ്രൊഫഷണൽ നിലവാരത്തിൽ പൂർത്തിയാക്കുന്നു

AI ഏജന്റുകൾ ഇപ്പോൾ പ്രൊഫഷണൽ നിലവാരമുള്ള ഫ്രീലാൻസ് ജോലികളുടെ 16% പൂർത്തിയാക്കുന്നു

റിമോട്ട് ലേബർ ഇൻഡക്സിന്റെ (Remote Labor Index) അതിവേഗ വളർച്ച

ഓട്ടോമേഷന്റെ പുതിയ അതിർത്തിയിൽ Fable 5 മുന്നിൽ

AI ജഡ്ജിമാരും പ്രൊഫഷണൽ സോഫ്റ്റ്‌വെയറുകളും നേരിടുന്ന പരിമിതികൾ

പ്രധാന വിവരങ്ങൾ

Continue reading

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

ഏജന്റിക് AI-യുടെ ഉദയം: എന്തുകൊണ്ട് ടെക് ടീമുകൾ ഓട്ടോമേഷൻ രംഗത്തെ നയിക്കുന്നു

സാധാരണ AI ബെഞ്ച്മാർക്കുകൾ എന്തുകൊണ്ടാണ് ഏജന്റുകളുടെ കഴിവുകളെ വ്യവസ്ഥാപിതമായി കുറച്ചു കാണിക്കുന്നത്?