Subquadratic заявляє про прорив у вирішенні проблеми квадратичного «вузького місця» LLM
Штучний інтелект (AI) активно обговорює стартап Subquadratic із Маямі, який заявляє про вирішення математичного обмеження, що стримувало великі мовні моделі (LLM) протягом майже десятиліття. Хоча початковий скептицизм був високим, нещодавня незалежна перевірка свідчить про те, що їхня нова архітектура «SubQ» може докорінно змінити парадигму генеративного ШІ.
Проблема: Квадратична складність щільної уваги (dense attention)
Щоб зрозуміти значення заяви Subquadratic, необхідно розуміти архітектуру «Transformer», представлену Google у 2017 році. Більшість сучасних LLM покладаються на механізм, що називається щільна увага (dense attention). У цьому процесі кожен токен (слово або частина слова) у послідовності множиться на кожен інший токен, щоб захопити контекст.
Це створює величезне обчислювальне навантаження, відоме як квадратичне розширення. Якщо ви подвоїте довжину тексту, обчислювальні вимоги зростуть приблизно у чотири рази. Для документа обсягом 10 000 слів модель має виконати майже 50 мільйонів окремих операцій множення. Ця неефективність є основною причиною того, чому LLM відомі як «пожирачі енергії», що потребують величезної кількості енергії та дорогого обладнання для обробки довгих контекстів.
Рішення: Масштабування за допомогою розрідженої уваги (sparse attention)
Модель SubQ від Subquadratic має на меті відмовитися від щільної уваги на користь розрідженої уваги (sparse attention). Основна філософія полягає в тому, що не кожен зв'язок між словами є критично важливим для розуміння документа. Замість того, щоб множити кожен токен на кожен інший, розріджена увага вибирає лише найбільш релевантні зв'язки для обчислення.
Хоча «розріджена увага» не є новою концепцією, попередні спроби мали труднощі з підтриманням високого рівня міркувань і нюансів, притаманних моделям зі щільною увагою. Subquadratic стверджує, що їм вдалося подолати цей розрив, створивши модель, яка забезпечує ефективність розрідженої уваги без традиційної втрати інтелекту.
Підтвердження заяв: результати від Appen
Після початкового скептицизму — коли деякі критики навіть порівнювали неперевірені заяви з «AI Theranos» — Subquadratic оприлюднила сторонні бенчмарки від Appen, провідної компанії з оцінки ШІ. Результати незалежного тестування Appen підтвердили архітектуру SubQ, назвавши отримані дані «шокуючими» та потенційним «фактором, що докорінно змінює правила гри».
За словами стартапу, SubQ пропонує кілька трансформаційних технічних переваг:
- Контекстне вікно: SubQ може обробляти до 12 разів більше тексту одночасно порівняно з більшістю сучасних моделей, що робить його ідеальним для аналізу цілих баз коду або масивних бібліотек документів.
- Продуктивність: Попри більш легку архітектуру, SubQ не поступається продуктивністю таким лідерам галузі, як OpenAI, Google DeepMind та Anthropic, у критично важливих завданнях, таких як програмування.
- Ефективність: Модель є значно швидшою, дешевшою та енергоефективнішою за існуючі моделі на основі трансформерів.
Нова ера поза межами трансформерів?
Subquadratic прагне не просто оптимізувати поточні моделі; компанія планує замінити фундаментальну архітектуру галузі. Генеральний директор Джастін Дангел заявив, що компанія вважає, ніби ера побудови на основі трансформерів може добігати кінця. Якщо SubQ зможе продовжувати доводити свою ефективність у масштабах, перехід від щільної уваги (dense attention) до розрідженої (sparse attention) може стати найзначнішим зсувом в архітектурі ШІ з моменту винайдення самого трансформера.
Ключові висновки
- Подолання квадратичного бар'єру: SubQ використовує розріджену увагу (sparse attention), щоб уникнути експоненціального зростання обчислювальних витрат, яких вимагає традиційна щільна увага (dense attention).
- Передове управління контекстом: Модель може обробляти у 12 разів більше даних одночасно, що дозволяє проводити глибокий аналіз масштабних наборів даних і великих обсягів коду.
- Підтверджена ефективність: Незалежне тестування компанії Appen підтверджує, що SubQ досягає високого рівня продуктивності (на рівні OpenAI та Google) за частку вартості та енергоспоживання.