Meta-র Brain2Qwerty v2: নন-ইনভেসিভ ব্রেন-টু-টেক্সট AI-এর ব্যবধান কমিয়ে আনা

নিউরোটেকনোলজিতে Meta-র সাম্প্রতিক যুগান্তকারী আবিষ্কার আমাদের অস্ত্রোপচার ছাড়াই নিরবচ্ছিন্ন ব্রেন-কম্পিউটার ইন্টারফেসের আরও কাছাকাছি নিয়ে আসছে। উন্নত ল্যাঙ্গুয়েজ মডেল এবং বিশাল ডেটাসেট ব্যবহার করে, Brain2Qwerty v2 সিস্টেমটি প্রদর্শন করছে কীভাবে নন-ইনভেসিভ সেন্সরগুলো নিউরাল অ্যাক্টিভিটিকে বা স্নায়বিক কার্যকলাপকে একটি সুসংগত টেক্সটে রূপান্তর করতে পারে।

সার্জিক্যাল ইমপ্লান্টের ঊর্ধ্বে অগ্রগতি

বছরের পর বছর ধরে, কম এরর রেট বা ত্রুটির হার অর্জনের জন্য উচ্চ-নির্ভুলতা সম্পন্ন ব্রেন-টু-টেক্সট যোগাযোগের ক্ষেত্রে ইনভেসিভ সার্জিক্যাল ইমপ্লান্টের প্রয়োজন হতো। যদিও বর্তমানে ইমপ্লান্টেড সিস্টেমগুলো ২%-এর নিচে Word Error Rate (WER) বজায় রেখে এগিয়ে রয়েছে, Meta-র Magnetoencephalography (MEG) ব্যবহার করা নন-ইনভেসিভ পদ্ধতিটি দ্রুত সেই ব্যবধান কমিয়ে আনছে। মাথার খুলির বাইরে চৌম্বক ক্ষেত্র পরিমাপের মাধ্যমে, Meta-র Fundamental AI Research (FAIR) ল্যাবের গবেষকরা মোটর কর্টেক্স অ্যাক্টিভিটি—অর্থাৎ একজন ব্যক্তি যখন তার আঙুল নাড়ানোর ইচ্ছা করেন তখন যে সংকেতগুলো পাঠানো হয়—তা ক্যাপচার করতে পারেন এবং টাইপ করা বাক্য পুনর্গঠন করতে পারেন।

এই গবেষণার পরিধি অত্যন্ত বিশাল: গবেষকরা নয়জন সুস্থ স্বেচ্ছাসেবককে প্রতিজন দশ ঘণ্টা করে রেকর্ড করেছেন, যার ফলে ২২,০০০ বাক্যের একটি ডেটাসেট তৈরি হয়েছে। এটি পূর্ববর্তী Brain2Qwerty v1-এর তুলনায় ডেটার পরিমাণ দশগুণ বৃদ্ধি করেছে, যা মডেলটিকে প্রতিটি কি-স্ট্রোকের সঠিক টাইমস্ট্যাম্পের প্রয়োজনীয়তা থেকে মুক্ত করে একটি অ্যাসিনক্রোনাস (asynchronous) এবং নিরবচ্ছিন্ন সিগন্যাল উইন্ডোর দিকে নিয়ে গেছে।

LLM ইন্টিগ্রেশনের শক্তি

Brain2Qwerty v2-এর মূল উদ্ভাবন হলো একটি ফাইন-টিউনড ল্যাঙ্গুয়েজ মডেল, Qwen3-এর ইন্টিগ্রেশন, যা একটি সিম্যান্টিক "স্মুদার" (semantic smoother) হিসেবে কাজ করে। সিস্টেমটি তিনটি ভিন্ন স্তরে সংকেত প্রসেস করে: ক্যারেক্টার, শব্দ এবং সম্পূর্ণ বাক্য।

ফলাফলগুলো ক্যারেক্টার প্রিসিশন (character precision) এবং সিম্যান্টিক বা অর্থগত অর্থের মধ্যে একটি আকর্ষণীয় ভারসাম্য প্রদর্শন করে:

  • Word Error Rate (WER): v2 মডেলটি গড়ে ৩৯% WER অর্জন করেছে, যা র (raw) এনকোডারে দেখা ৫৫% এবং v1 N-gram মডেলের ৪৩%-এর তুলনায় একটি বিশাল উন্নতি।
  • Character Error Rate (CER): মজার বিষয় হলো, v2-এর জন্য CER ছিল ৩১%, যা আসলে র এনকোডারের (২৮%) চেয়ে বেশি।

এটি ঘটে কারণ Qwen3 ল্যাঙ্গুয়েজ মডেলটি সাবলীলতা এবং ব্যাকরণের ওপর বেশি গুরুত্ব দেয়। যদি নিউরাল সিগন্যালটি নয়েজি (noisy) হয়, তবে LLM একটি ব্যাকরণগতভাবে সঠিক বাক্য "হ্যালুসিনেশন" (hallucinate) করতে পারে যা হয়তো কাঙ্ক্ষিত ক্যারেক্টারগুলোর সাথে মিলবে না। তবে, ক্লিনিক্যাল অ্যাপ্লিকেশনের ক্ষেত্রে, নিখুঁত ক্যারেক্টার-বাই-ক্যারেক্টার বানানের চেয়ে কাঙ্ক্ষিত অর্থ প্রকাশ করার ক্ষমতা (semantic accuracy) অনেক বেশি গুরুত্বপূর্ণ।

AI-চালিত গবেষণা অপ্টিমাইজেশন

উদ্ভাবনের ক্ষেত্রে একটি মেটা-অ্যাপ্রোচ হিসেবে, Meta মডেলের কোড অপ্টিমাইজ করার জন্য Claude Opus 4.6 ভিত্তিক তিনটি স্বতন্ত্র AI এজেন্ট ব্যবহার করেছে। এই এজেন্টগুলো সফলভাবে label smoothing এবং modality dropout-এর মতো উচ্চ-কার্যক্ষমতাসম্পন্ন কৌশলগুলো শনাক্ত করেছে, যা মানুষের ডিজাইন করা সাধারণ অপ্টিমাইজেশন পদ্ধতিকেও ছাড়িয়ে গেছে। যদিও এজেন্টগুলো ওপেন-এন্ডেড টাস্ক এবং জটিল কোড স্ট্যাবিলিটির ক্ষেত্রে কিছুটা হিমশিম খেয়েছে, তবে হাইপারপ্যারামিটার ফাইন-টিউন করার ক্ষেত্রে তাদের সাফল্য এমন একটি নতুন যুগের ইঙ্গিত দেয় যেখানে AI নিউরোটেকনোলজিক্যাল টুলের উন্নয়নকে ত্বরান্বিত করছে।

Meta যখন পোর্টেবল এবং রুম-টেম্পারেচার MEG সেন্সর নিয়ে গবেষণা করছে, তখন মোটর ইমপেয়ারমেন্ট বা চলাফেরায় অক্ষম ব্যক্তিদের জন্য রিয়েল-টাইম, নন-ইনভেসিভ কমিউনিকেশন ডিভাইসের পথ ক্রমশ স্পষ্ট হয়ে উঠছে।

মূল বিষয়সমূহ

  • সিম্যান্টিক লিপ: Qwen3 ল্যাঙ্গুয়েজ মডেলটি ইন্টিগ্রেট করার মাধ্যমে, Brain2Qwerty v2 উল্লেখযোগ্যভাবে Word Error Rate কমিয়ে ৩৯%-এ নিয়ে এসেছে, যেখানে কাঙ্ক্ষিত ক্যারেক্টার নির্ভুলতার চেয়ে অর্থের ওপর বেশি গুরুত্ব দেওয়া হয়েছে।
  • অ্যাসিনক্রোনাস প্রসেসিং: নতুন মডেলটির জন্য আর নিখুঁত কি-স্ট্রোক টাইমিংয়ের প্রয়োজন হয় না, যা প্রযুক্তিটিকে রিয়েল-টাইম, নন-ইনভেসিভ ব্যবহারের আরও কাছাকাছি নিয়ে এসেছে।
  • AI-অপ্টিমাইজড মডেল: Meta সফলভাবে Claude Opus-ভিত্তিক এজেন্ট ব্যবহার করে নিউরাল ডিকোডিং কোডের অপ্টিমাইজেশন স্বয়ংক্রিয় এবং উন্নত করেছে।