Anthropic, Claude Sonnet 5-ஐ அறிமுகப்படுத்துகிறது: ஏஜென்டிக் (Agentic) AI-ன் புதிய எல்லை
Anthropic அதிகாரப்பூர்வமாக Claude Sonnet 5-ஐ வெளியிட்டுள்ளது. இது நடுத்தர மற்றும் முதன்மையான (flagship) AI தொடர்களுக்கு இடையிலான செயல்திறன் இடைவெளியைக் குறைக்கும் வகையில் வடிவமைக்கப்பட்ட ஒரு சக்திவாய்ந்த மாடல் ஆகும். கருவிகளைப் பயன்படுத்துதல், இணையத்தில் தேடுதல் மற்றும் சிக்கலான திட்டங்களைச் செயல்படுத்துதல் போன்ற ஏஜென்டிக் (agentic) திறன்களுக்கு முன்னுரிமை அளிப்பதன் மூலம், இந்த வெளியீடு தன்னாட்சி AI பணிப்பாய்வுகளை (autonomous AI workflows) நோக்கிய மாற்றத்தைக் குறிக்கிறது.
Opus தொடருடன் இடைவெளியைக் குறைத்தல்
Sonnet 5-ன் மிகவும் வியக்கத்தக்க அம்சம் என்னவென்றால், இது மிகவும் பெரிய மற்றும் அதிக விலை கொண்ட Opus 4.8-ன் செயல்திறனை எவ்வளவு நெருக்கமாக எட்டுகிறது என்பதாகும். புரட்சிகரமான பெஞ்ச்மார்க் (benchmark) சோதனைகளில், "நடுத்தர அளவிலான" மாடல்களும் முன்னணியில் உள்ள (frontier-class) நுண்ணறிவுத் திறன் கொண்ட பணிகளை இப்போது கையாள முடியும் என்பதை Sonnet 5 நிரூபித்துள்ளது.
பன்முகத்தன்மை கொண்ட பகுத்தறிவு பெஞ்ச்மார்க்கான Humanity's Last Exam-இல், Sonnet 5 கருவிகளைப் பயன்படுத்தி 57.4% மதிப்பெண்களைப் பெற்றது, இது Opus 4.8-ன் 57.9% மதிப்பெண்ணிற்கு இணையானது. மிகவும் வியக்கத்தக்க வகையில், நிஜ உலக அறிவு சார்ந்த பணி பெஞ்ச்மார்க்கான GDPval-AA v2-இல், Sonnet 5 உண்மையில் Opus 4.8-ஐ விட மேலோங்கி, முதன்மையான மாடலின் 1,615 புள்ளிகளுக்குப் பதிலாக 1,618 புள்ளிகளைப் பெற்றது. இது குறிப்பிட்ட அறிவு சார்ந்த பணிப்பாய்வுகளுக்கு (knowledge-heavy workflows), Opus தொடரின் அளவை விட Sonnet 5-ன் செயல்திறன் மேலோங்கி இருக்கலாம் என்பதைக் காட்டுகிறது.
ஏஜென்டிக் செயல்திறனில் ஒரு மிகப்பெரிய முன்னேற்றம்
Anthropic நிறுவனம் Sonnet 5-ஐ அதன் வரலாற்றிலேயே மிகவும் "ஏஜென்டிக்" (agentic) மாடலாகத் திட்டமிட்டு உருவாக்கியுள்ளது. அதாவது, பல படிநிலைகளைக் கொண்ட இலக்குகளைப் பூர்த்தி செய்ய, இணைய உலாவிகள் (web browsers) மற்றும் டெர்மினல்கள் (terminals) போன்ற சூழல்களுடன் தொடர்பு கொள்வதற்கு இந்த மாடல் மேம்படுத்தப்பட்டுள்ளது. இதன் தரவுகள் அதன் முந்தைய மாடலான Sonnet 4.6-ஐ விட ஒரு குறிப்பிடத்தக்க முன்னேற்றத்தைக் காட்டுகின்றன:
- SWE-bench Pro (Agentic Coding): Sonnet 4.6-ன் 58.1%-லிருந்து Sonnet 5 ஆனது 63.2%-ஐ எட்டியது (Opus 4.8-ன் 69.2%-க்கு அடுத்தபடியாக உள்ளது).
- Terminal-Bench 2.1: Sonnet 4.6-ன் 67.0%-டன் ஒப்பிடுகையில், இது 80.4% என்ற மிகப்பெரிய முன்னேற்றத்தைக் கண்டுள்ளது.
- OSWorld-Verified (Computer Use): இந்த மாடல் 81.2% மதிப்பெண்களைப் பெற்று, முந்தைய பதிவின் 78.5% மதிப்பெண்ணைத் தாண்டியுள்ளது.
சைபர் பாதுகாப்பு மற்றும் பாதுகாப்பு கட்டுப்பாடுகளைக் கையாளுதல்
சைபர் பாதுகாப்பு கவலைகள் காரணமாக, Mythos 5 மற்றும் Fable 5 மாடல்களின் மீது அமெரிக்க அரசாங்கம் விதித்துள்ள கட்டுப்பாடுகளுக்குப் பிறகு, Anthropic நிறுவனத்திற்கு இந்த வெளியீடு ஒரு முக்கியமான நேரத்தில் நிகழ்கிறது. இது போன்ற தடைகளைத் தவிர்க்க, Sonnet 5-க்கு சிறப்பு சைபர் பாதுகாப்பு பணிகளுக்கான பயிற்சியளிக்கப்படவில்லை என்பதை Anthropic உறுதி செய்துள்ளது.
எக்ஸ்ப்ளோய்ட் (exploit) மதிப்பீடுகளில் Sonnet 5, Sonnet 4.6-ஐ விடச் சற்று அதிகப்படியான பகுதி கட்டுப்பாட்டு விகிதத்தைக் (13.2%) காட்டினாலும், மென்பொருள் எக்ஸ்ப்ளோயிட்டுகளை எழுதுவதில் Opus 4.8 அல்லது Mythos 5-ஐ விட இது கணிசமாகக் குறைவான திறனையே கொண்டுள்ளது. அபாயத்தைக் குறைக்க, Anthropic நிறுவனம் இயல்பாகவே (by default) நிகழ்நேர சைபர் பாதுகாப்புகளைச் செயல்படுத்தியுள்ளது; அத்துடன் 'ப்ராம்ப்ட் இன்ஜெக்ஷன்' (prompt injection) தாக்குதல்களுக்கு எதிரான மேம்படுத்தப்பட்ட பாதுகாப்புகளையும், "சைகோஃபன்டிக்" (sycophantic) நடத்தையைக் (பயனரின் தவறுகளுடன் சும்மா உடன்படும் போக்கு) குறைப்பதையும் மேற்கொண்டுள்ளது.
கிடைப்புத்தன்மை மற்றும் "டோக்கன் முரண்பாடு" (Token Paradox)
Claude Sonnet 5 இப்போது Claude Platform மற்றும் API (claude-sonnet-5) மூலம் கிடைக்கிறது. இது பத்து லட்சம் (one-million) டோக்கன் கொண்ட கான்டெக்ஸ்ட் விண்டோ (context window) மற்றும் ஜனவரி 2026 வரையிலான பயிற்சித் தரவுகளைக் கொண்டுள்ளது.
Anthropic நிறுவனம் அறிமுக விலையாக—ஆகஸ்ட் 31, 2026 வரை ஒரு மில்லியன் இன்புட் டோக்கன்களுக்கு $2 மற்றும் ஒரு மில்லியன் அவுட்புட் டோக்கன்களுக்கு $10 என வழங்குகிறது—இருப்பினும், டெவலப்பர்கள் "டோக்கன் முரண்பாட்டை" (token paradox) குறித்து எச்சரிக்கையாக இருக்க வேண்டும். இந்த மாடல் அதிக ஏஜென்டிக் தன்மையைக் கொண்டிருப்பதாலும், அதிகப்படியான தொடர் பகுத்தறிவைப் (iterative reasoning) பயன்படுத்துவதாலும், முந்தைய பதிவுகளுடன் ஒப்பிடும்போது ஒரு பணியை முடிக்க இது கணிசமாக அதிக டோக்கன்களைப் பயன்படுத்தக்கூடும். இது ஒரு டோக்கனுக்கான குறைந்த விலையைச் சமன் செய்துவிடக்கூடும்.
முக்கியக் குறிப்புகள்
- செயல்திறன் சமநிலை: குறிப்பிட்ட பகுத்தறிவு மற்றும் அறிவு சார்ந்த பணி பெஞ்ச்மார்க்குகளில் Sonnet 5, முதன்மையான Opus 4.8-க்கு இணையாக அல்லது அதைவிடச் சிறப்பாகச் செயல்படுகிறது.
- ஏஜென்டிக் கவனம்: கோடிங் (SWE-bench) மற்றும் டெர்மினல் தொடர்புகளில் இந்த மாடல் மிகப்பெரிய முன்னேற்றத்தைக் காட்டுகிறது, இது தன்னாட்சி கருவிப் பயன்பாட்டிற்கு (autonomous tool use) ஏற்றதாக அமைகிறது.
- மூலோபாயப் பாதுகாப்பு: சர்ச்சைக்குரிய மற்றும் அதிக ஆபத்துள்ள முன்னணியில் உள்ள மாடல்களிலிருந்து இந்த மாடலை வேறுபடுத்திக் காட்ட, Anthropic நிறுவனம் இதில் உள்ளமைக்கப்பட்ட சைபர் பாதுகாப்புகளுக்கு முன்னுரிமை அளித்துள்ளது.
