Brain2Qwerty v2 від Meta: Подолання розриву в неінвазивному ШІ для перетворення мозкової активності в текст
Останній прорив Meta у сфері нейротехнологій наближає нас до безперешкодного створення нейрокомп'ютерних інтерфейсів без необхідності хірургічного втручання. Використовуючи передові мовні моделі та масивні набори даних, система Brain2Qwerty v2 демонструє, як неінвазивні сенсори можуть перетворювати нейронну активність на зв'язний текст.
Поступ у розвитку за межами хірургічних імплантатів
Протягом багатьох років високоточний зв'язок «мозок-текст» потребував інвазивних хірургічних імплантатів для досягнення низького рівня помилок. Хоча імплантовані системи наразі лідирують із рівнем помилок у словах (WER) нижче 2%, неінвазивний підхід Meta з використанням магнітоенцефалографії (MEG) стрімко скорочує цю дистанцію. Вимірюючи магнітні поля зовні черепа, дослідники з лабораторії Fundamental AI Research (FAIR) компанії Meta можуть фіксувати активність моторної кори — сигнали, що надсилаються, коли людина має намір поворушити пальцями, — для реконструкції надрукованих речень.
Масштаб цього дослідження є значним: дослідники записували дані дев'яти здорових добровольців протягом десяти годин кожен, що дозволило отримати набір даних із 22 000 речень. Це в десять разів більше даних порівняно з попередньою версією Brain2Qwerty v1, що дозволило моделі відійти від необхідності точного таймінгу натискання клавіш і перейти до асинхронного безперервного вікна сигналу.
Потужність інтеграції LLM
Ключовою інновацією в Brain2Qwerty v2 є інтеграція доналаштованої мовної моделі Qwen3, яка виступає в ролі семантичного «згладжувача». Система обробляє сигнали на трьох різних рівнях: символи, слова та повні речення.
Результати демонструють цікавий компроміс між точністю символів та семантичним значенням:
- Word Error Rate (WER): Модель v2 досягла середнього WER на рівні 39%, що є величезним покращенням порівняно з 55% у сирому енкодері та 43%, досягнутими моделлю N-gram у v1.
- Character Error Rate (CER): Цікаво, що CER для v2 склав 31%, що насправді вище, ніж у сирого енкодера (28%).
Це відбувається тому, що мовна модель Qwen3 надає пріоритет плинності мови та граматиці. Якщо нейронний сигнал зашумлений, LLM «галюцинує» граматично правильне речення, яке може не збігатися з запланованими символами. Однак для клінічного застосування здатність передати задуманий зміст (семантична точність) є набагато критичнішою, ніж ідеальне посимвольне написання.
Оптимізація досліджень за допомогою ШІ
Використовуючи мета-підхід до інновацій, Meta залучила трьох незалежних ШІ-агентів на базі Claude Opus 4.6 для оптимізації коду моделі. Ці агенти успішно визначили високоефективні методи, такі як label smoothing та modality dropout, перевершивши стандартні методи оптимізації, розроблені людьми. Хоча агенти мали труднощі з відкритими завданнями та стабільністю складного коду, їхній успіх у налаштуванні гіперпараметрів свідчить про нову еру, де ШІ прискорює розробку нейротехнологічних інструментів.
Оскільки Meta досліджує портативні MEG-сенсори, що працюють при кімнатній температурі, шлях до створення пристрою для неінвазивного зв'язку в реальному часі для людей з порушеннями моторики стає дедалі чіткішим.
Основні висновки
- Семантичний стрибок: Завдяки інтеграції мовної моделі Qwen3, Brain2Qwerty v2 значно знизила рівень помилок у словах до 39%, надаючи пріоритет змісту, а не просто точності символів.
- Асинхронна обробка: Нова модель більше не потребує точного таймінгу натискання клавіш, що наближає технологію до неінвазивного використання в реальному часі.
- Моделі, оптимізовані ШІ: Meta успішно використала агентів на базі Claude Opus для автоматизації та покращення оптимізації коду нейронного декодування.
