Subquadratic 声称在解决 LLM 平方复杂度瓶颈方面取得突破
AI 行业正因总部位于迈阿密的初创公司 Subquadratic 而议论纷纷,该公司声称已经解决了一个困扰大语言模型 (LLM) 近十年的数学限制。尽管最初的怀疑态度很强,但最近的独立验证表明,他们全新的 “SubQ” 架构可能会从根本上改变生成式 AI 的范式。
问题所在:稠密注意力的平方成本
要理解 Subquadratic 这一声称的重要性,必须先了解 Google 在 2017 年推出的 “Transformer” 架构。大多数现代 LLM 都依赖一种被称为 稠密注意力 (dense attention) 的机制。在此过程中,序列中的每一个 token(单词或单词的一部分)都要与序列中的每一个其他 token 相乘,以捕捉上下文信息。
这会产生一种被称为“平方级扩张”的巨大计算负担。如果你将文本长度增加一倍,计算需求大约会增加到原来的四倍。对于一篇 10,000 字的文档,模型必须进行近 5000 万次单独的乘法运算。这种低效性是 LLM 成为臭名昭著的“耗能大户”的主要原因,处理长上下文需要消耗巨大的能量和昂贵的硬件。
解决方案:利用稀疏注意力进行扩展
Subquadratic 的 SubQ 模型旨在抛弃稠密注意力,转而采用 稀疏注意力 (sparse attention)。其核心理念是,单词之间的并非每种关系对于理解文档都至关重要。稀疏注意力不再将每个 token 与其他所有 token 相乘,而是仅选择最相关的关系进行计算。
虽然“稀疏注意力”并非新概念,但以往的尝试都难以维持稠密注意力模型所具备的高水平推理能力和细腻度。Subquadratic 声称已经弥补了这一差距,创造出一种既能提供稀疏注意力的高效性,又不会像传统方式那样损失智能水平的模型。
验证声称:来自 Appen 的结果
在经历了早期的质疑——一些批评者甚至将这些未经证实的声称比作 “AI 版 Theranos”——之后,Subquadratic 发布了来自领先 AI 评估公司 Appen 的第三方基准测试结果。Appen 的独立测试结果验证了 SubQ 架构,并将这些发现描述为“令人震惊”且具有潜在的“颠覆性”。
据这家初创公司称,SubQ 提供了几项具有变革性的技术优势:
- 上下文窗口 (Context Window): 与目前大多数模型相比,SubQ 一次可以处理多达 12 倍的文本量,这使其成为分析整个代码库或海量文档库的理想选择。
- 性能: 尽管架构更加精简,但 SubQ 在编程等关键任务上的表现可以媲美 OpenAI、Google DeepMind 和 Anthropic 等行业领导者。
- 效率: 与现有的基于 Transformer 的模型相比,该模型速度更快、成本更低,且能效更高。
超越 Transformer 的新时代?
Subquadratic 不仅仅是在寻求优化现有模型,他们还致力于取代行业的底层架构。CEO Justin Dangel 表示,公司认为基于 Transformer 构建模型的时代可能即将结束。如果 SubQ 能够继续证明其在大规模应用中的有效性,那么从稠密注意力 (dense attention) 向稀疏注意力 (sparse attention) 的转变,可能代表了自 Transformer 发明以来 AI 架构最重大的变革。
核心要点
- 打破二次方障碍: SubQ 使用稀疏注意力机制,以避免传统稠密注意力机制所带来的计算量指数级增长。
- 卓越的上下文处理能力: 该模型一次可以处理多出 12 倍的数据,从而能够对大规模数据集和长篇代码进行深度分析。
- 经验证的效率: Appen 的独立测试证实,SubQ 能以极低的成本和能耗实现顶尖性能(媲美 OpenAI 和 Google)。