𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗦𝗰𝗼𝗿𝗲𝗱 𝟬% 𝗢𝗻 𝗘𝘅𝗽𝗲𝗿𝘁 𝗧𝗮𝘀𝗸𝘀

Translated for your language. Read the original.

AI-assisted draft.

நேற்று முன் தினம்2min read

நிபுணத்துவப் பணிகளில் AI ஏஜென்ட்கள் 0% மதிப்பெண் பெற்றன

AI ஏஜென்ட்கள் நிபுணத்துவப் பணிகளில் தோல்வியடைந்தன.

ALE பெஞ்ச்மார்க், சிறந்த மாடல்களைத் தொழில்முறைப் பணிகளில் சோதித்தது. இந்தத் பணிகள் உண்மையான நிபுணத்துவத்தைக் கோருகின்றன. இவை ஒரு PDF-ஐச் சுருக்குவது போன்ற எளிமையான பணிகள் அல்ல.

முடிவுகள் தெளிவாக இருந்தன. Fable 5 மற்றும் GPT-5.5 போன்ற மாடல்கள் கடினமான நிபுணத்துவப் பிரச்சனைகளில் 0% மதிப்பெண் பெற்றன. ஒரு நாணயத்தைச் சுண்டிப் பார்ப்பது கூட இதைவிடச் சிறப்பாகச் செயல்படும்.

நடுத்தர நிலை பணிகளிலும் செயல்திறன் குறைவாகவே இருந்தது. சிறந்த ஏஜென்ட்கள் கூட 15% முதல் 21% வெற்றி விகிதத்தை மட்டுமே எட்டின.

AI ஏஜென்ட்கள் பற்றிச் சொல்லப்படும் மிகைப்படுத்தப்பட்ட செய்திகள் உண்மையானவை அல்ல.

ஏஜென்ட்கள் விமானப் பயணங்களை முன்பதிவு செய்வது அல்லது குறியீடுகளை (code) எழுதுவது போன்ற வீடியோக்களை நீங்கள் பார்க்கிறீர்கள். இந்த டெமோக்கள் பார்க்கச் சிறப்பாகத் தோன்றலாம். ஆனால் டெமோக்கள் திட்டமிடப்பட்டவை. பெஞ்ச்மார்க்குகள் அவ்வாறு இல்லை.

ஒரு டெமோவிற்கும் உண்மையான பயன்பாட்டிற்கும் (deployment) இடையே மிகப்பெரிய இடைவெளி உள்ளது. பல குழுக்கள் இல்லாத திறன்களை அடிப்படையாகக் கொண்டு தயாரிப்பு முடிவுகளை எடுக்கின்றன. ஏஜென்ட்கள் முழுமையான பணிப்பாய்வுகளை (workflows) நிர்வகிக்க அனுமதிப்பதாகத் திட்டமிடுகிறார்கள். இது ஒரு தவறு.

தரவுகள் எதைக் காட்டுகின்றன என்றால்:

ஏஜென்ட்கள் நடுத்தர நிலை பணிகளுக்கு உதவியாளர்களாகச் சிறப்பாகச் செயல்படுகின்றன.
நிபுணத்துவத் தன்னாட்சி (Expert autonomy) இன்னும் இங்கு வரவில்லை.
டெமோக்களை விட பெஞ்ச்மார்க்குகள் மிகவும் நம்பகமானவை.

நீங்கள் இன்று ஏஜென்ட்களைக் கொண்டு உருவாக்கினால், அவற்றின் தற்போதைய எல்லைகளைக் கருத்தில் கொண்டு உருவாக்குங்கள். ஒரு பேச்சாளர் விரைவில் நடக்கும் என்று வாக்குறுதி அளிப்பவற்றிற்காக உருவாக்காதீர்கள்.

இந்தத் துறையினர் இந்த முடிவுகளைப் புறக்கணிக்கிறார்கள். மக்கள் தரவுகளுக்குப் பதிலாக மிகைப்படுத்தப்பட்ட செய்திகளின் அடிப்படையில் சாலை வரைபடங்களை (roadmaps) உருவாக்கத் தொடர்கிறார்கள்.

உங்கள் தயாரிப்பில் ஏஜென்ட்களைப் பயன்படுத்தினால், அவற்றை ஜூனியர் டெவலப்பர்களைப் போலக் கருதுங்கள். அவை தெளிவான விதிகளைக் கொண்ட சிறிய பணிகளில் செயல்படுகின்றன. மேற்பார்வை இல்லாமல் சிக்கலான பணிகளில் அவை தோல்வியடைகின்றன.

இந்த விதிகளைப் பின்பற்றுங்கள்:

முக்கியமான பணிகளுக்கு மனிதத் தலையீட்டை (human in the loop) உறுதி செய்யுங்கள்.
ஏஜென்ட்களுக்கு மிகவும் குறுகிய பணிகளைக் கொடுங்கள்.
உங்கள் உண்மையான பணிச்சுமையைக் கொண்டு செயல்திறனை அளவிடுங்கள்.

ஒரு நடைமுறை அணுகுமுறை (pragmatic approach) மிகைப்படுத்தப்பட்ட பதிவுகளை விடக் குறைவான சுவாரஸ்யத்தைக் கொண்டிருக்கலாம். ஆனால் அது செயல்படும் மென்பொருளைத் தரும்.

ஏஜென்ட்கள் கருவிகள் மட்டுமே. அவை தன்னாட்சி பெற்ற பணியாளர்கள் அல்ல. யதார்த்தத்திற்காக உருவாக்குங்கள்.

குழுக்கள் வழங்க முயற்சிக்கும் மிகைப்படுத்தப்பட்ட ஏஜென்ட் திறன் எது? உங்கள் அனுபவங்களை கீழே பகிருங்கள்.

மூலம்: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗦𝗰𝗼𝗿𝗲𝗱 𝟬% 𝗢𝗻 𝗘𝘅𝗽𝗲𝗿𝘁 𝗧𝗮𝘀𝗸𝘀

Continue reading

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

𝗔𝗺𝗯𝗶𝗲𝗻𝘁 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗼 𝗔𝘃𝗼𝗶𝗱

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺