Meta의 Brain2Qwerty v2: 비침습적 뇌-텍스트 AI의 격차를 줄이다
신경 기술 분야에서 Meta의 최신 돌파구는 수술 없이도 원활한 뇌-컴퓨터 인터페이스(BCI)를 구현하는 데 한 걸음 더 다가서고 있습니다. 고급 언어 모델과 방대한 데이터셋을 활용하는 Brain2Qwerty v2 시스템은 비침습적 센서가 어떻게 신경 활동을 일관된 텍스트로 변환할 수 있는지를 보여주고 있습니다.
수술용 임플란트를 넘어선 진보
수년 동안 높은 정확도의 뇌-텍스트 통신은 낮은 오류율을 달성하기 위해 침습적인 수술용 임플란트를 필요로 했습니다. 현재 임플란트 시스템이 2% 미만의 단어 오류율(WER)로 앞서고 있지만, 뇌자도(MEG)를 사용하는 Meta의 비침습적 접근 방식이 그 격차를 빠르게 좁히고 있습니다. Meta의 FAIR(Fundamental AI Research) 연구소 연구원들은 두개골 외부의 자기장을 측정함으로써, 사람이 손가락을 움직이려 할 때 발생하는 신호인 운동 피질 활동을 포착하여 타이핑된 문장을 재구성할 수 있습니다.
이번 연구의 규모는 상당합니다. 연구진은 9명의 건강한 자원봉사자를 대상으로 각각 10시간 동안 기록을 진행하여 22,000개의 문장으로 구성된 데이터셋을 구축했습니다. 이는 이전 버전인 Brain2Qwerty v1과 비교했을 때 데이터가 10배 증가한 것으로, 모델이 정확한 키 입력 타임스탬프에 의존하지 않고 비동기식의 연속적인 신호 창(signal window)을 활용할 수 있게 해주었습니다.
LLM 통합의 힘
Brain2Qwerty v2의 핵심 혁신은 미세 조정된 언어 모델인 Qwen3를 통합하여 의미론적 "스무더(smoother)" 역할을 수행하게 한 것입니다. 이 시스템은 문자, 단어, 전체 문장의 세 가지 뚜렷한 수준에서 신호를 처리합니다.
결과는 문자 정밀도와 의미론적 의미 사이의 흥미로운 트레이드오프(trade-off)를 보여줍니다:
- 단어 오류율 (WER): v2 모델은 평균 39%의 WER을 달성했으며, 이는 로우 인코더(raw encoder)의 55%와 v1 N-gram 모델의 43%에 비해 대폭 개선된 수치입니다.
- 문자 오류율 (CER): 흥미롭게도 v2의 CER은 31%로, 로우 인코더(28%)보다 오히려 높았습니다.
이는 Qwen3 언어 모델이 유창성과 문법을 우선시하기 때문에 발생합니다. 신경 신호에 노이즈가 섞여 있을 경우, LLM은 의도한 문자와 일치하지 않더라도 문법적으로 올바른 문장을 "환각(hallucinate)"해낼 수 있습니다. 하지만 임상적 응용 측면에서는 완벽한 철자 맞춤보다 의도한 의미를 전달하는 능력(의미론적 정확도)이 훨씬 더 중요합니다.
AI 기반 연구 최적화
혁신에 대한 메타적 접근 방식으로, Meta는 모델 코드를 최적화하기 위해 Claude Opus 4.6 기반의 세 가지 독립적인 AI 에이전트를 활용했습니다. 이 에이전트들은 레이블 스무딩(label smoothing) 및 모달리티 드롭아웃(modality dropout)과 같은 고성능 기술을 성공적으로 식별하여, 표준적인 인간 설계 최적화 방식을 능가하는 성과를 거두었습니다. 에이전트들이 개방형 작업이나 복잡한 코드 안정성 확보에는 어려움을 겪기도 했지만, 하이퍼파라미터 미세 조정에서의 성공은 AI가 신경 기술 도구의 개발을 가속화하는 새로운 시대가 도래했음을 보여줍니다.
Meta가 휴대 가능한 상온 MEG 센서를 탐구함에 따라, 운동 장애가 있는 개인을 위한 실시간 비침습적 통신 장치로 가는 길이 점점 더 명확해지고 있습니다.
핵심 요약
- 의미론적 도약: Qwen3 언어 모델을 통합함으로써 Brain2Qwerty v2는 단어 오류율을 39%로 크게 낮추었으며, 단순한 문자 정확도보다 의미 전달을 우선시했습니다.
- 비동기식 처리: 새로운 모델은 더 이상 정밀한 키 입력 타이밍을 요구하지 않으므로, 기술이 실시간 비침습적 사용에 한층 더 가까워졌습니다.
- AI 최적화 모델: Meta는 Claude Opus 기반 에이전트를 성공적으로 활용하여 신경 디코딩 코드의 최적화 과정을 자동화하고 개선했습니다.
