Anthropic লঞ্চ করেছে Claude Sonnet 5: এজেন্টিক এআই-এর নতুন দিগন্ত

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial৩ দিন আগে3min read

Anthropic লঞ্চ করেছে Claude Sonnet 5: এজেন্টিক এআই-এর নতুন দিগন্ত

In this article

Anthropic লঞ্চ করল Claude Sonnet 5: Agentic AI-এর নতুন দিগন্ত

Anthropic আনুষ্ঠানিকভাবে Claude Sonnet 5 প্রকাশ করেছে, যা একটি শক্তিশালী মডেল এবং এটি মিড-টিয়ার (mid-tier) ও ফ্ল্যাগশিপ (flagship) AI সিরিজের মধ্যে পারফরম্যান্সের ব্যবধান ঘুচিয়ে দেওয়ার জন্য ডিজাইন করা হয়েছে। এজেন্টিক সক্ষমতাকে (agentic capabilities)—অর্থাৎ টুল ব্যবহার করা, ব্রাউজ করা এবং জটিল পরিকল্পনা কার্যকর করার ক্ষমতাকে—অগ্রাধিকার দিয়ে এই রিলিজটি স্বয়ংক্রিয় AI ওয়ার্কফ্লোর (autonomous AI workflows) দিকে একটি পরিবর্তনের ইঙ্গিত দিচ্ছে।

Opus সিরিজের সাথে ব্যবধান কমিয়ে আনা

Sonnet 5-এর সবচেয়ে উল্লেখযোগ্য দিক হলো এটি কতটা নিবিড়ভাবে অনেক বড় এবং আরও ব্যয়বহুল Opus 4.8-এর পারফরম্যান্সের কাছাকাছি পৌঁছেছে। যুগান্তকারী বেঞ্চমার্কে Sonnet 5 প্রমাণ করেছে যে "মাঝারি আকারের" (mid-sized) মডেলগুলো এখন এমন সব কাজ করতে পারে যা আগে শুধুমাত্র ফ্রন্টিয়ার-ক্লাস (frontier-class) বুদ্ধিমত্তার জন্য সংরক্ষিত ছিল।

মাল্টিডিসিপ্লিনারি রিজনিং বেঞ্চমার্ক, Humanity's Last Exam-এ, Sonnet 5 টুল ব্যবহার করে ৫৭.৪% স্কোর অর্জন করেছে, যা Opus 4.8-এর ৫৭.৯% স্কোরের প্রায় কাছাকাছি। সবচেয়ে চিত্তাকর্ষক বিষয় হলো, রিয়েল-ওয়ার্ল্ড নলেজ টাস্ক বেঞ্চমার্ক GDPval-AA v2-এ Sonnet 5 প্রকৃতপক্ষে Opus 4.8-কে ছাড়িয়ে গেছে, যেখানে ফ্ল্যাগশিপ মডেলটি পেয়েছে ১,৬১৫ পয়েন্ট এবং Sonnet 5 পেয়েছে ১,৬১৮ পয়েন্ট। এটি নির্দেশ করে যে নির্দিষ্ট জ্ঞান-নির্ভর ওয়ার্কফ্লোর জন্য Sonnet 5-এর দক্ষতা Opus সিরিজের বিশাল স্কেলের চেয়েও বেশি কার্যকর হতে পারে।

Agentic পারফরম্যান্সে এক বিশাল লাফ

Anthropic বিশেষভাবে Sonnet 5-কে তাদের এযাবৎকালের সবচেয়ে "agentic" মডেল হিসেবে তৈরি করেছে। এর মানে হলো, মাল্টি-স্টেপ অবজেক্টিভ বা বহু-ধাপের লক্ষ্য পূরণের জন্য মডেলটিকে ওয়েব ব্রাউজার এবং টার্মিনালের মতো পরিবেশের সাথে ইন্টারঅ্যাক্ট করার জন্য অপ্টিমাইজ করা হয়েছে। ডেটা তার পূর্বসূরি Sonnet 4.6-এর তুলনায় একটি উল্লেখযোগ্য উন্নতি দেখায়:

SWE-bench Pro (Agentic Coding): Sonnet 5 đạt 63.2% এ পৌঁছেছে, যা Sonnet 4.6-এর 58.1% থেকে বেশি (Opus 4.8-এর 69.2% এর চেয়ে কিছুটা কম)।
Terminal-Bench 2.1: Sonnet 4.6-এর 67.0% এর তুলনায় এটি লাফিয়ে ৮০.৪% এ পৌঁছেছে।
OSWorld-Verified (Computer Use): মডেলটি ৮১.২% স্কোর করেছে, যা পূর্ববর্তী ভার্সনের ৭৮.৫% স্কোরকে ছাড়িয়ে গেছে।

সাইবার নিরাপত্তা এবং সুরক্ষা সীমাবদ্ধতা মোকাবিলা

সাইবার নিরাপত্তার উদ্বেগের কারণে মার্কিন সরকারের Mythos 5 এবং Fable 5 মডেলের ওপর বিধিনিষেধ আরোপের পর, Anthropic-এর জন্য এই লঞ্চটি একটি সংবেদনশীল সময়ে এলো। একই ধরনের বাধা এড়াতে, Anthropic নিশ্চিত করেছে যে Sonnet 5-কে বিশেষায়িত সাইবার নিরাপত্তা টাস্কগুলোর ওপর প্রশিক্ষণ দেওয়া হয়নি।

যদিও Sonnet 5-এর এক্সপ্লয়েট ইভালুয়েশনে (exploit evaluations) পারশিয়াল কন্ট্রোল রেট (১৩.২%) Sonnet 4.6-এর তুলনায় কিছুটা বেশি, তবুও সফটওয়্যার এক্সপ্লয়েট লেখার ক্ষেত্রে এটি Opus 4.8 বা Mythos 5-এর তুলনায় উল্লেখযোগ্যভাবে কম সক্ষম। ঝুঁকি কমাতে, Anthropic ডিফল্টভাবে রিয়েল-টাইম সাইবার সেফগার্ড কার্যকর করেছে, সেই সাথে প্রম্পট ইনজেকশন (prompt injection)-এর বিরুদ্ধে উন্নত প্রতিরক্ষা এবং "sycophantic" আচরণ (ব্যবহারকারীর ভুলগুলোর সাথে কেবল একমত হওয়ার প্রবণতা) কমানোর ব্যবস্থা নিয়েছে।

প্রাপ্যতা এবং "Token Paradox"

Claude Sonnet 5 এখন Claude Platform এবং API-এর (claude-sonnet-5) মাধ্যমে উপলব্ধ, যাতে রয়েছে দশ লক্ষ (one-million) টোকেনের কনটেক্সট উইন্ডো এবং জানুয়ারি ২০২৬ পর্যন্ত ট্রেনিং কাটঅফ।

যদিও Anthropic একটি প্রারম্ভিক মূল্য অফার করছে—৩১ আগস্ট, ২০২৬ পর্যন্ত প্রতি মিলিয়ন ইনপুট টোকেনের জন্য ২ ডলার এবং প্রতি মিলিয়ন আউটপুট টোকেনের জন্য ১০ ডলার—ডেভেলপারদের "token paradox"-এর বিষয়ে সতর্ক থাকা উচিত। যেহেতু মডেলটি আরও বেশি এজেন্টিক এবং এতে আরও বেশি ইটারেটিভ রিজনিং (iterative reasoning) বা পুনরাবৃত্তিমূলক যুক্তি কাজ করে, তাই একটি একক কাজ সম্পন্ন করতে এটি পূর্ববর্তী ভার্সনগুলোর তুলনায় উল্লেখযোগ্যভাবে বেশি টোকেন খরচ করতে পারে, যা সম্ভবত প্রতি-টোকেন কম খরচের সুবিধা কমিয়ে দিতে পারে।

মূল বিষয়সমূহ

পারফরম্যান্সের সমতা: Sonnet 5 নির্দিষ্ট রিজনিং এবং নলেজ ওয়ার্ক বেঞ্চমার্কে ফ্ল্যাগশিপ Opus 4.8-এর সমান বা এমনকি তাকে ছাড়িয়ে যাচ্ছে।
এজেন্টিক ফোকাস: মডেলটি কোডিং (SWE-bench) এবং টার্মিনাল ইন্টারঅ্যাকশনে ব্যাপক উন্নতি দেখিয়েছে, যা একে স্বয়ংক্রিয় টুল ব্যবহারের জন্য আদর্শ করে তুলেছে।
কৌশলগত নিরাপত্তা: Anthropic এই মডেলটিকে বিতর্কিত এবং উচ্চ-ঝুঁকিপূর্ণ ফ্রন্টিয়ার মডেলগুলো থেকে আলাদা করতে বিল্ট-ইন সাইবার সেফগার্ডকে অগ্রাধিকার দিয়েছে।

Anthropic লঞ্চ করেছে Claude Sonnet 5: এজেন্টিক এআই-এর নতুন দিগন্ত

Anthropic লঞ্চ করল Claude Sonnet 5: Agentic AI-এর নতুন দিগন্ত

Opus সিরিজের সাথে ব্যবধান কমিয়ে আনা

Agentic পারফরম্যান্সে এক বিশাল লাফ

সাইবার নিরাপত্তা এবং সুরক্ষা সীমাবদ্ধতা মোকাবিলা

প্রাপ্যতা এবং "Token Paradox"

মূল বিষয়সমূহ

Continue reading

Claude Sonnet 5: উচ্চ কার্যক্ষমতা আড়াল করছে উল্লেখযোগ্য মূল্য বৃদ্ধি

Anthropic চালু করল Claude Sonnet 5 এবং ফ্রন্টিয়ার মডেলগুলো পুনরুদ্ধার করল

ওষুধ আবিষ্কারের ক্ষেত্রে বিপ্লব ঘটাতে Anthropic চালু করল Claude Science

Anthropic Launches Claude Sonnet 5 to Power Affordable AI Agents

Anthropic লঞ্চ করেছে Claude Science: এআই গবেষণার জন্য একটি ওয়ার্কফ্লো-কেন্দ্রিক পদ্ধতি