Subquadratic, LLM의 이차적 병목 현상 해결에 대한 획기적 돌파구 주장

AI 업계는 마이애미 기반의 스타트업 Subquadratic가 거의 10년 동안 대규모 언어 모델(LLM)을 제약해 온 수학적 한계를 해결했다고 주장하면서 떠들썩합니다. 초기에는 회의적인 시각이 많았으나, 최근의 독립적인 검증 결과에 따르면 이들의 새로운 "SubQ" 아키텍처가 생성형 AI의 패러다임을 근본적으로 바꿀 수 있음을 시사합니다.

문제점: 밀집 어텐션(Dense Attention)의 이차적 비용

Subquadratic의 주장이 갖는 의미를 이해하려면 2017년 구글이 도입한 "Transformer" 아키텍처를 이해해야 합니다. 대부분의 현대적 LLM은 **밀집 어텐션(dense attention)**이라고 불리는 메커니즘에 의존합니다. 이 과정에서는 문맥을 파악하기 위해 시퀀스 내의 모든 토큰(단어 또는 단어의 일부)을 다른 모든 토큰과 곱합니다.

이는 이차적 확장(quadratic expansion)이라고 알려진 막대한 계산 부담을 초래합니다. 텍스트의 길이가 두 배로 늘어나면 계산 요구량은 대략 네 배로 증가합니다. 10,000단어 분량의 문서의 경우, 모델은 거의 5,000만 번의 개별 곱셈을 수행해야 합니다. 이러한 비효율성은 LLM이 긴 문맥을 처리하기 위해 엄청난 에너지와 값비싼 하드웨어를 필요로 하는, 악명 높은 "전력 괴물(power hogs)"이 된 주요 원인입니다.

해결책: 희소 어텐션(Sparse Attention)을 통한 확장

Subquadratic의 SubQ 모델은 밀집 어텐션을 버리고 **희소 어텐션(sparse attention)**을 채택하는 것을 목표로 합니다. 핵심 철학은 단어 사이의 모든 관계가 문서를 이해하는 데 결정적인 것은 아니라는 점입니다. 희소 어텐션은 모든 토큰을 다른 모든 토큰과 곱하는 대신, 계산할 가장 관련성 높은 관계만을 선택합니다.

"희소 어텐션"이 새로운 개념은 아니지만, 이전의 시도들은 밀집 어텐션 모델에서 볼 수 있는 높은 수준의 추론과 뉘앙스를 유지하는 데 어려움을 겪었습니다. Subquadratic는 이러한 격차를 메워, 기존의 지능 저하 없이 희소 어텐션의 효율성을 제공하는 모델을 만들었다고 주장합니다.

주장 검증: Appen의 결과

검증되지 않은 주장을 "AI 테라노스(AI Theranos)"에 비유하는 비판론자들의 초기 회의론이 있었으나, Subquadratic는 선도적인 AI 평가 기업인 Appen의 제3자 벤치마크 결과를 발표했습니다. Appen의 독립적인 테스트 결과는 SubQ 아키텍처를 검증했으며, 그 결과를 "충격적"이며 잠재적인 "게임 체인저"라고 설명했습니다.

해당 스타트업에 따르면, SubQ는 몇 가지 혁신적인 기술적 이점을 제공합니다:

  • 컨텍스트 창(Context Window): SubQ는 대부분의 기존 모델과 비교하여 한 번에 최대 12배 더 많은 텍스트를 처리할 수 있어, 전체 코드베이스나 방대한 문서 라이브러리를 분석하는 데 이상적입니다.
  • 성능: 더 가벼운 아키텍처임에도 불구하고, SubQ는 코딩과 같은 핵심 작업에서 OpenAI, Google DeepMind, Anthropic과 같은 업계 선두 주자들과 대등한 성능을 보여줍니다.
  • 효율성: 이 모델은 기존의 트랜스포머(transformer) 기반 모델보다 훨씬 빠르고 저렴하며 에너지 효율적입니다.

트랜스포머를 넘어선 새로운 시대?

Subquadratic는 단순히 현재의 모델을 최적화하는 것에 그치지 않고, 업계의 근간이 되는 아키텍처를 교체하고자 합니다. CEO Justin Dangel은 트랜스포머를 기반으로 구축하는 시대가 끝나가고 있다고 회사는 믿고 있다고 밝혔습니다. 만약 SubQ가 대규모 환경에서도 그 효능을 계속해서 입증할 수 있다면, 밀집 주의(dense attention)에서 희소 주의(sparse attention)로의 전환은 트랜스포머의 발명 이후 AI 아키텍처에서 가장 중대한 변화가 될 수 있습니다.

핵심 요약

  • 이차 함수의 장벽 돌파: SubQ는 희소 주의(sparse attention)를 사용하여 기존의 밀집 주의(dense attention)에서 요구되는 기하급수적인 연산량 증가를 방지합니다.
  • 우수한 컨텍스트 처리 능력: 이 모델은 한 번에 12배 더 많은 데이터를 처리할 수 있어, 대규모 데이터셋과 긴 코드에 대한 심층 분석이 가능합니다.
  • 검증된 효율성: Appen의 독립적인 테스트 결과, SubQ는 훨씬 적은 비용과 에너지로도 (OpenAI 및 Google과 대등한) 최상위권 성능을 달성하는 것으로 확인되었습니다.