Subquadratic、LLMの二次的なボトルネックを解決する画期的な進展を主張
マイアミを拠点とするスタートアップ企業Subquadraticが、約10年間にわたり大規模言語モデル(LLM)を制約してきた数学的な限界を解決したと主張しており、AI業界が沸いています。当初は懐疑的な見方が強かったものの、最近の独立した検証により、同社の新しい「SubQ」アーキテクチャが生成AIのパラダイムを根本的に変える可能性があることが示唆されています。
問題点:密なアテンションによる二次的なコスト
Subquadraticの主張の重要性を理解するには、2017年にGoogleが導入した「Transformer」アーキテクチャを理解する必要があります。現代のほとんどのLLMは、**dense attention(密なアテンション)**と呼ばれるメカニズムに依存しています。このプロセスでは、文脈を捉えるために、シーケンス内のすべてのトークン(単語または単語の一部)が他のすべてのトークンと掛け合わされます。
これにより、「二次的な拡大(quadratic expansion)」として知られる膨大な計算負荷が生じます。テキストの長さを2倍にすると、計算要件はおよそ4倍になります。10,000語の文書の場合、モデルは5,000万回近い個別の乗算を実行しなければなりません。この非効率性が、LLMが長いコンテキストを処理するために膨大なエネルギーと高価なハードウェアを必要とする、いわゆる「電力消費の激しい存在(power hogs)」として悪名高い主な理由です。
解決策:疎なアテンションによるスケーリング
SubquadraticのSubQモデルは、dense attentionを捨て、**sparse attention(疎なアテンション)**を採用することを目指しています。その核心となる哲学は、単語間のすべての関係が文書の理解に不可欠なわけではないという点にあります。すべてのトークンを他のすべてのトークンと掛け合わせる代わりに、sparse attentionは計算すべき最も関連性の高い関係のみを選択します。
「sparse attention」は新しい概念ではありませんが、これまでの試みは、dense attentionモデルに見られる高いレベルの推論やニュアンスを維持することに苦戦してきました。Subquadraticは、従来の知能の低下を招くことなく、sparse attentionの効率性を提供するモデルを構築することで、このギャップを埋めたと主張しています。
主張の検証:Appenによる結果
未検証の主張を「AI版のTheranos」になぞらえる批評家もいた初期の懐疑論を経て、Subquadraticは、主要なAI評価企業であるAppenによる第三者ベンチマークを公開しました。Appenの独立したテスト結果はSubQアーキテクチャを検証しており、その結果を「衝撃的」であり、潜在的な「ゲームチェンジャー」であると述べています。
According to the startup, SubQ offers several transformative technical advantages:
- Context Window: SubQ can process up to 12 times more text at once compared to most current models, making it ideal for analyzing entire codebases or massive document libraries.
- Performance: Despite the leaner architecture, SubQ matches the performance of industry leaders like OpenAI, Google DeepMind, and Anthropic on critical tasks such as coding.
- Efficiency: The model is significantly faster, cheaper, and more energy-efficient than existing transformer-based models.
A New Era Beyond Transformers?
Subquadratic is not just looking to optimize current models; they are looking to replace the foundational architecture of the industry. CEO Justin Dangel has stated that the company believes the era of building on Transformers may be coming to an end. If SubQ can continue to prove its efficacy at scale, the transition from dense to sparse attention could represent the most significant shift in AI architecture since the invention of the Transformer itself.
Key Takeaways
- Breaking the Quadratic Barrier: SubQ uses sparse attention to avoid the exponential increase in computation required by traditional dense attention.
- Superior Context Handling: The model can process 12x more data at once, enabling deep analysis of large-scale datasets and long-form code.
- Verified Efficiency: Independent testing by Appen confirms that SubQ achieves high-tier performance (matching OpenAI and Google) at a fraction of the cost and energy.