Brain2Qwerty v2 متا: پر کردن شکاف در هوش مصنوعی غیرتهاجمی تبدیل مغز به متن

آخرین پیشرفت متا در فناوری عصبی، ما را به رابط‌های مغز و رایانه بدون نیاز به جراحی نزدیک‌تر می‌کند. سیستم Brain2Qwerty v2 با بهره‌گیری از مدل‌های زبانی پیشرفته و مجموعه‌داده‌های عظیم، نشان می‌دهد که چگونه حسگرهای غیرتهاجمی می‌توانند فعالیت‌های عصبی را به متن منسجم ترجمه کنند.

فراتر رفتن از ایمپلنت‌های جراحی

سال‌ها بود که ارتباط با دقت بالای مغز به متن، برای دستیابی به نرخ خطای پایین، نیازمند ایمپلنت‌های جراحی تهاجمی بود. در حالی که سیستم‌های کاشته‌شده در حال حاضر با نرخ خطای کلمات (WER) زیر ۲٪ پیشتاز هستند، رویکرد غیرتهاجمی متا با استفاده از مگنتوانسفالوگرافی (MEG) به سرعت در حال کاهش این فاصله است. پژوهشگران در آزمایشگاه Fundamental AI Research (FAIR) متا با اندازه‌گیری میدان‌های مغناطیسی در خارج از جمجمه، می‌توانند فعالیت قشر حرکتی را — یعنی سیگنال‌هایی که هنگام قصد حرکت دادن انگشتان ارسال می‌شوند — برای بازسازی جملات تایپ‌شده ثبت کنند.

مقیاس این مطالعه بسیار قابل توجه است: پژوهشگران نه داوطلب سالم را به مدت ده ساعت برای هر نفر ثبت کردند که منجر به مجموعه‌داده‌ای شامل ۲۲,۰۰۰ جمله شد. این یعنی ده برابر افزایش داده‌ها نسبت به نسخه قبلی، Brain2Qwerty v1، که به مدل اجازه می‌دهد از نیاز به برچسب‌های زمانی دقیقِ فشردن کلیدها فاصله گرفته و به سمت یک پنجره سیگنال پیوسته و ناهمگام حرکت کند.

قدرت ادغام LLM

نوآوری اصلی در Brain2Qwerty v2، ادغام یک مدل زبانی تنظیم‌شده (fine-tuned) به نام Qwen3 است که به عنوان یک «صاف‌کننده» معنایی عمل می‌کند. این سیستم سیگنال‌ها را در سه سطح متمایز پردازش می‌کند: کاراکترها، کلمات و جملات کامل.

نتایج نشان‌دهنده یک توازن (trade-off) جذاب بین دقت کاراکتر و معنای معنایی است:

  • نرخ خطای کلمات (WER): مدل v2 به میانگین WER ۳۹٪ دست یافت که بهبود چشمگیری نسبت به ۵۵٪ در رمزگذار خام (raw encoder) و ۴۳٪ در مدل N-gram نسخه v1 است.
  • نرخ خطای کاراکتر (CER): جالب اینجاست که CER برای نسخه v2 برابر با ۳۱٪ بود که در واقع بالاتر از رمزگذار خام (۲۸٪) است.

این اتفاق به این دلیل رخ می‌دهد که مدل زبانی Qwen3 روانی و دستور زبان را در اولویت قرار می‌دهد. اگر سیگنال عصبی دارای نویز باشد، LLM یک جمله از نظر دستوری صحیح «تخیل» (hallucinate) می‌کند که ممکن است با کاراکترهای مورد نظر مطابقت نداشته باشد. با این حال، برای کاربردهای بالینی، توانایی انتقال معنای مورد نظر (دقت معنایی) بسیار حیاتی‌تر از املای بی‌نقص کاراکتر به کاراکتر است.

بهینه‌سازی پژوهش مبتنی بر هوش مصنوعی

متا در یک رویکرد فرامتدی (meta-approach) برای نوآوری، از سه عامل هوش مصنوعی مستقل مبتنی بر Claude Opus 4.6 برای بهینه‌سازی کد مدل استفاده کرد. این عوامل با موفقیت تکنیک‌های با کارایی بالا مانند label smoothing و modality dropout را شناسایی کردند و از روش‌های بهینه‌سازی استاندارد که توسط انسان طراحی شده‌اند، پیشی گرفتند. اگرچه این عوامل در انجام وظایف باز (open-ended) و پایداری کدهای پیچیده با چالش‌هایی روبرو بودند، اما موفقیت آن‌ها در تنظیم دقیق ابرپارامترها (hyperparameters)، آغازگر عصر جدیدی است که در آن هوش مصنوعی توسعه ابزارهای فناوری عصبی را تسریع می‌کند.

با کاوش متا در زمینه حسگرهای MEG قابل حمل و با دمای اتاق، مسیر رسیدن به یک دستگاه ارتباطی غیرتهاجمی و بی‌درنگ (real-time) برای افراد دارای اختلالات حرکتی، بیش از پیش روشن می‌شود.

نکات کلیدی

  • جهش معنایی: با ادغام مدل زبانی Qwen3، مدل Brain2Qwerty v2 نرخ خطای کلمات را به میزان قابل توجهی به ۳۹٪ کاهش داد و معنا را بر دقت خام کاراکترها اولویت بخشید.
  • پردازش ناهمگام: مدل جدید دیگر نیازی به زمان‌بندی دقیق فشردن کلیدها ندارد و این فناوری را به استفاده غیرتهاجمی و بی‌درنگ نزدیک‌تر می‌کند.
  • مدل‌های بهینه‌شده با هوش مصنوعی: متا با موفقیت از عوامل مبتنی بر Claude Opus برای خودکارسازی و بهبود بهینه‌سازی کد رمزگشایی عصبی استفاده کرد.