நிபுணத்துவப் பணிகளில் AI ஏஜென்ட்கள் 0% மதிப்பெண் பெற்றன
AI ஏஜென்ட்கள் நிபுணத்துவப் பணிகளில் தோல்வியடைந்தன.
ALE பெஞ்ச்மார்க், சிறந்த மாடல்களைத் தொழில்முறைப் பணிகளில் சோதித்தது. இந்தத் பணிகள் உண்மையான நிபுணத்துவத்தைக் கோருகின்றன. இவை ஒரு PDF-ஐச் சுருக்குவது போன்ற எளிமையான பணிகள் அல்ல.
முடிவுகள் தெளிவாக இருந்தன. Fable 5 மற்றும் GPT-5.5 போன்ற மாடல்கள் கடினமான நிபுணத்துவப் பிரச்சனைகளில் 0% மதிப்பெண் பெற்றன. ஒரு நாணயத்தைச் சுண்டிப் பார்ப்பது கூட இதைவிடச் சிறப்பாகச் செயல்படும்.
நடுத்தர நிலை பணிகளிலும் செயல்திறன் குறைவாகவே இருந்தது. சிறந்த ஏஜென்ட்கள் கூட 15% முதல் 21% வெற்றி விகிதத்தை மட்டுமே எட்டின.
AI ஏஜென்ட்கள் பற்றிச் சொல்லப்படும் மிகைப்படுத்தப்பட்ட செய்திகள் உண்மையானவை அல்ல.
ஏஜென்ட்கள் விமானப் பயணங்களை முன்பதிவு செய்வது அல்லது குறியீடுகளை (code) எழுதுவது போன்ற வீடியோக்களை நீங்கள் பார்க்கிறீர்கள். இந்த டெமோக்கள் பார்க்கச் சிறப்பாகத் தோன்றலாம். ஆனால் டெமோக்கள் திட்டமிடப்பட்டவை. பெஞ்ச்மார்க்குகள் அவ்வாறு இல்லை.
ஒரு டெமோவிற்கும் உண்மையான பயன்பாட்டிற்கும் (deployment) இடையே மிகப்பெரிய இடைவெளி உள்ளது. பல குழுக்கள் இல்லாத திறன்களை அடிப்படையாகக் கொண்டு தயாரிப்பு முடிவுகளை எடுக்கின்றன. ஏஜென்ட்கள் முழுமையான பணிப்பாய்வுகளை (workflows) நிர்வகிக்க அனுமதிப்பதாகத் திட்டமிடுகிறார்கள். இது ஒரு தவறு.
தரவுகள் எதைக் காட்டுகின்றன என்றால்:
- ஏஜென்ட்கள் நடுத்தர நிலை பணிகளுக்கு உதவியாளர்களாகச் சிறப்பாகச் செயல்படுகின்றன.
- நிபுணத்துவத் தன்னாட்சி (Expert autonomy) இன்னும் இங்கு வரவில்லை.
- டெமோக்களை விட பெஞ்ச்மார்க்குகள் மிகவும் நம்பகமானவை.
நீங்கள் இன்று ஏஜென்ட்களைக் கொண்டு உருவாக்கினால், அவற்றின் தற்போதைய எல்லைகளைக் கருத்தில் கொண்டு உருவாக்குங்கள். ஒரு பேச்சாளர் விரைவில் நடக்கும் என்று வாக்குறுதி அளிப்பவற்றிற்காக உருவாக்காதீர்கள்.
இந்தத் துறையினர் இந்த முடிவுகளைப் புறக்கணிக்கிறார்கள். மக்கள் தரவுகளுக்குப் பதிலாக மிகைப்படுத்தப்பட்ட செய்திகளின் அடிப்படையில் சாலை வரைபடங்களை (roadmaps) உருவாக்கத் தொடர்கிறார்கள்.
உங்கள் தயாரிப்பில் ஏஜென்ட்களைப் பயன்படுத்தினால், அவற்றை ஜூனியர் டெவலப்பர்களைப் போலக் கருதுங்கள். அவை தெளிவான விதிகளைக் கொண்ட சிறிய பணிகளில் செயல்படுகின்றன. மேற்பார்வை இல்லாமல் சிக்கலான பணிகளில் அவை தோல்வியடைகின்றன.
இந்த விதிகளைப் பின்பற்றுங்கள்:
- முக்கியமான பணிகளுக்கு மனிதத் தலையீட்டை (human in the loop) உறுதி செய்யுங்கள்.
- ஏஜென்ட்களுக்கு மிகவும் குறுகிய பணிகளைக் கொடுங்கள்.
- உங்கள் உண்மையான பணிச்சுமையைக் கொண்டு செயல்திறனை அளவிடுங்கள்.
ஒரு நடைமுறை அணுகுமுறை (pragmatic approach) மிகைப்படுத்தப்பட்ட பதிவுகளை விடக் குறைவான சுவாரஸ்யத்தைக் கொண்டிருக்கலாம். ஆனால் அது செயல்படும் மென்பொருளைத் தரும்.
ஏஜென்ட்கள் கருவிகள் மட்டுமே. அவை தன்னாட்சி பெற்ற பணியாளர்கள் அல்ல. யதார்த்தத்திற்காக உருவாக்குங்கள்.
குழுக்கள் வழங்க முயற்சிக்கும் மிகைப்படுத்தப்பட்ட ஏஜென்ட் திறன் எது? உங்கள் அனுபவங்களை கீழே பகிருங்கள்.
மூலம்: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1
விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi