মার্কডাউন অপ্টিমাইজেশনের মাধ্যমে মাইক্রোসফটের SkillOpt, GPT 5.5-এর পারফরম্যান্স বৃদ্ধি করছে

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial৩ সপ্তাহ আগে3min read

In this article

Microsoft-এর SkillOpt Markdown অপ্টিমাইজেশনের মাধ্যমে GPT-5.5-এর পারফরম্যান্স বৃদ্ধি করেছে

Microsoft এবং তিনটি চীনা বিশ্ববিদ্যালয়ের গবেষকরা SkillOpt উন্মোচন করেছেন, যা একটি যুগান্তকারী পদ্ধতি যেখানে নির্দেশনামূলক Markdown ফাইলগুলোকে প্রশিক্ষণযোগ্য প্যারামিটার (trainable parameters) হিসেবে বিবেচনা করা হয়। এই "skill" ডকুমেন্টগুলো অপ্টিমাইজ করার মাধ্যমে, গবেষকরা প্রসিডিউরাল টাস্কের ক্ষেত্রে GPT-5.5-এর পারফরম্যান্সে ২৩ পয়েন্টের বিশাল উন্নতি অর্জন করেছেন।

টেক্সটকে প্রশিক্ষণযোগ্য ওয়েট (Trainable Weights) হিসেবে বিবেচনা করা

বর্তমান AI প্রেক্ষাপটে, "skills"—অর্থাৎ মডুলার নির্দেশাবলী যা এজেন্টদের নির্দিষ্ট কার্যপ্রণালী, টুল ব্যবহারের নিয়ম এবং আউটপুট ফরম্যাটের মাধ্যমে নির্দেশনা দেয়—শিল্পের মানদণ্ড হয়ে উঠছে। Anthropic-এর মতো কোম্পানিগুলো Claude-কে উন্নত করতে এগুলো ব্যবহার করলেও, এই ডকুমেন্টগুলো ঐতিহ্যগতভাবে মানুষের দ্বারা লেখা হয় অথবা একটি LLM দ্বারা একবারেই তৈরি করা হয়। কোনো পদ্ধতিই প্রকৃত অপ্টিমাইজার হিসেবে কাজ করে না।

SkillOpt এই ধারণাটি বদলে দিচ্ছে একটি Markdown ফাইলকে একটি ফ্রোজেন টার্গেট মডেলের জন্য বাহ্যিক, প্রশিক্ষণযোগ্য স্টেট (trainable state) হিসেবে বিবেচনা করার মাধ্যমে। মডেলের ওয়েট আপডেট করার পরিবর্তে, একটি দ্বিতীয় "optimizer" ল্যাঙ্গুয়েজ মডেল এক্সিকিউশন লগ বিশ্লেষণ করে বারবার ঘটে যাওয়া ভুল এবং সাফল্যগুলো শনাক্ত করে। এই অপ্টিমাইজারটি একটি Markdown ডকুমেন্টের মধ্যে সুনির্দিষ্ট পরিবর্তন—যেমন কোনো অংশ যোগ করা, মুছে ফেলা বা প্রতিস্থাপন করা—প্রস্তাব করে। সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো, এই পরিবর্তনগুলো কেবল তখনই গ্রহণ করা হয় যদি সেগুলো একটি ভ্যালিডেশন সেটে পরিমাপযোগ্য উন্নতি দেখায়।

গদ্যের ক্ষেত্রে প্রয়োগকৃত ডিপ লার্নিং ধারণা

SkillOpt-এর বিশেষত্ব হলো এটি কীভাবে প্রথাগত ডিপ লার্নিং মেকানিক্সকে টেক্সট-লেভেল অপ্টিমাইজেশনের সাথে যুক্ত করে। গবেষকরা স্থিতিশীলতা নিশ্চিত করতে বেশ কিছু উন্নত কন্ট্রোল মেকানিজম প্রয়োগ করেছেন:

Learning Rate এবং Schedulers: একটি লার্নিং রেট প্রতিটি ধাপে অনুমোদিত এডিট বা পরিবর্তনের সংখ্যা সীমিত করে, আর একটি শিডিউলার অস্থিরতা রোধ করতে ট্রেনিং এপোকগুলোর (epochs) সাথে এডিট করার পরিধি কমিয়ে আনে।
Negative Feedback Buffers: প্রত্যাখ্যাত এডিটগুলো একটি বাফারে জমা রাখা হয়, যা নেতিবাচক উদাহরণ হিসেবে কাজ করে এবং অপ্টিমাইজারকে একই ভুল পুনরাবৃত্তি করা থেকে বিরত রাখে।
Gradient Smoothing: প্রতিটি এপোকের শেষে একটি "slow update" মেকানিজম স্থিতিশীল এডিট ডিরেকশন বজায় রাখে, যা প্রথাগত নিউরাল নেটওয়ার্ক ট্রেনিংয়ে গ্রেডিয়েন্ট স্মুদিং কীভাবে স্থিতিশীলতা আনে তার অনুকরণ করে।

এই কাজের বিভাজনের অর্থ হলো মূল কঠিন কাজটি ট্রেনিংয়ের সময় সম্পন্ন হয়। ইনফারেন্সের (inference) সময়, টার্গেট মডেলটি হালকা থাকে এবং কনটেক্সট হিসেবে কেবল ৩০০ থেকে ২,০০০ টোকেনের একটি সংক্ষিপ্ত Markdown ফাইল গ্রহণ করে।

বেঞ্চমার্ক আধিপত্য এবং ক্রস-মডেল ট্রান্সফারেবিলিটি

পরীক্ষামূলক ফলাফলগুলো তাৎপর্যপূর্ণ। সার্চ, গণিত, স্প্রেডশিট এবং এমবডিড অ্যাকশন (embodied action) সহ ছয়টি বেঞ্চমার্কে পরীক্ষার মাধ্যমে দেখা গেছে যে, SkillOpt ধারাবাহিকভাবে হাতে লেখা স্কিল এবং TextGrad ও EvoSkill-এর মতো বিশেষায়িত পদ্ধতিগুলোকে ছাড়িয়ে গেছে। সরাসরি চ্যাটে GPT-5.5-এর ক্ষেত্রে, এই পদ্ধতিটি গড়ে প্রায় ২৩ পয়েন্ট পারফরম্যান্স বৃদ্ধি করেছে।

সবচেয়ে প্রভাবশালী আবিষ্কারগুলোর মধ্যে একটি হলো এই পদ্ধতির স্থানান্তরযোগ্যতা (transferability)। GPT-5.5-এর মতো একটি বড় মডেলের জন্য অপ্টিমাইজ করা একটি স্কিল Qwen3.5-4B-এর মতো অনেক ছোট মডেলেও প্রয়োগ করা যেতে পারে, যা কার্যকরভাবে তাদের সেই প্রসিডিউরাল নলেজ (procedural knowledge) প্রদান করে যা তাদের নেটিভ ওয়েটসে (native weights) অনুপস্থিত। তদুপরি, স্কিলগুলো পরিবেশ-নিরপেক্ষ (environment-agnostic); একটি Codex লুপে প্রশিক্ষিত স্প্রেডশিট স্কিল কোনো পুনরায় প্রশিক্ষণ ছাড়াই Claude Code-এ নিরবচ্ছিন্নভাবে কাজ করে।

উদাহরণস্বরূপ, স্প্রেডশিট টাস্কগুলোতে, অপ্টিমাইজ করা স্কিলটি প্রথমে ওয়ার্কশিট স্ট্রাকচার পরীক্ষা করতে শেখে এবং ফর্মুলার ওপর নির্ভর না করে সরাসরি ইভ্যালুয়েটেড ভ্যালু (evaluated values) লিখতে শেখে। ALFWorld-এর মতো এমবডিড AI টাস্কগুলোতে, স্কিলটি লক্ষ্যগুলো সঠিক ক্রমে পূরণ করা নিশ্চিত করতে ভ্রমণ করা স্থানগুলোর একটি লগ (log) বজায় রাখতে শেখে।

মূল বিষয়সমূহ

টেক্সট-ভিত্তিক অপ্টিমাইজেশন: SkillOpt মার্কডাউন ইন্সট্রাকশন ফাইলগুলোকে প্রশিক্ষণযোগ্য স্টেট (trainable states) হিসেবে বিবেচনা করে এবং মডেল ওয়েটের মতো সেগুলোকে অপ্টিমাইজ করার জন্য একটি দ্বিতীয় LLM ব্যবহার করে।
বিপুল পারফরম্যান্স বৃদ্ধি: এই পদ্ধতিটি প্রসিডিউরাল বেঞ্চমার্কে GPT-5.5-এর পারফরম্যান্স গড়ে ২৩ পয়েন্ট বৃদ্ধি করেছে, বিশেষ করে টুল-ব্যবহার (tool-use) এবং কঠোর ফরম্যাটিং টাস্কগুলোতে এটি অত্যন্ত কার্যকর।
দক্ষ এবং স্থানান্তরযোগ্য: অপ্টিমাইজ করা স্কিলগুলো অত্যন্ত সংক্ষিপ্ত (২,০০০ টোকেনের নিচে) এবং এগুলো বড় মডেল থেকে ছোট মডেলে বা বিভিন্ন এজেন্ট এনভায়রনমেন্টের মধ্যে স্থানান্তর করা সম্ভব।