Subquadratic заявляет о прорыве в решении проблемы квадратичного узкого места в LLM

Translated for your language. Читать оригинал.

AI-assisted draft.

позавчера3мин чтения

В этой статье

Subquadratic заявляет о прорыве в решении проблемы квадратичного ограничения LLM

ИИ-индустрия активно обсуждает стартап Subquadratic из Майами, который утверждает, что решил математическую проблему, сдерживавшую большие языковые модели (LLM) на протяжении почти десятилетия. Несмотря на высокий уровень первоначального скептицизма, недавняя независимая проверка показывает, что их новая архитектура «SubQ» может фундаментально изменить парадигму генеративного ИИ.

Проблема: Квадратичная сложность плотного внимания

Чтобы понять значимость заявления Subquadratic, необходимо разобраться в архитектуре Transformer, представленной Google в 2017 году. Большинство современных LLM полагаются на механизм, называемый плотным вниманием (dense attention). В этом процессе каждый токен (слово или часть слова) в последовательности умножается на каждый другой токен для улавливания контекста.

Это создает огромную вычислительную нагрузку, известную как квадратичный рост. Если вы удвоите длину текста, вычислительные требования вырастут примерно в четыре раза. Для документа объемом 10 000 слов модели необходимо выполнить почти 50 миллионов отдельных операций умножения. Именно эта неэффективность является основной причиной того, почему LLM известны как «пожиратели энергии», требующие колоссальных затрат электроэнергии и дорогостоящего оборудования для обработки длинных контекстов.

Решение: Масштабирование с помощью разреженного внимания

Модель SubQ от Subquadratic нацелена на отказ от плотного внимания в пользу разреженного внимания (sparse attention). Основная идея заключается в том, что не каждая связь между словами критически важна для понимания документа. Вместо того чтобы умножать каждый токен на каждый другой, разреженное внимание выбирает только наиболее значимые связи для вычислений.

Хотя «разреженное внимание» не является новой концепцией, предыдущие попытки с трудом позволяли сохранять высокий уровень логики и нюансов, характерный для моделей с плотным вниманием. Subquadratic утверждает, что им удалось преодолеть этот разрыв, создав модель, которая обеспечивает эффективность разреженного внимания без традиционной потери качества рассуждений.

Подтверждение заявлений: результаты Appen

После первоначального скептицизма — когда некоторые критики даже сравнивали непроверенные заявления с «Theranos в мире ИИ» — компания Subquadratic опубликовала результаты сторонних бенчмарков от Appen, ведущей компании по оценке ИИ. Результаты независимого тестирования Appen подтвердили архитектуру SubQ, назвав полученные данные «шокирующими» и потенциальным «фактором, меняющим правила игры».

По словам стартапа, SubQ предлагает несколько революционных технических преимуществ:

Контекстное окно: SubQ может обрабатывать до 12 раз больше текста за один раз по сравнению с большинством современных моделей, что делает его идеальным для анализа целых кодовых баз или огромных библиотек документов.
Производительность: Несмотря на более легкую архитектуру, SubQ не уступает в производительности таким лидерам отрасли, как OpenAI, Google DeepMind и Anthropic, в таких критически важных задачах, как написание кода.
Эффективность: Модель значительно быстрее, дешевле и энергоэффективнее существующих моделей на базе трансформеров.

Новая эра за пределами трансформеров?

Subquadratic стремится не просто оптимизировать текущие модели, а заменить фундаментальную архитектуру всей индустрии. Генеральный директор Джастин Дангель (Justin Dangel) заявил, что компания считает, будто эра построения систем на базе Transformers может подходить к концу. Если SubQ сможет и дальше доказывать свою эффективность в масштабируемых решениях, переход от плотного (dense) к разреженному (sparse) вниманию может стать самым значительным сдвигом в архитектуре ИИ со времен изобретения самого трансформера.

Основные выводы

Преодоление квадратичного барьера: SubQ использует разреженное внимание (sparse attention), чтобы избежать экспоненциального роста вычислительных затрат, характерного для традиционного плотного внимания.
Превосходная работа с контекстом: Модель может обрабатывать в 12 раз больше данных за один раз, что позволяет проводить глубокий анализ крупномасштабных наборов данных и объемного программного кода.
Подтвержденная эффективность: Независимое тестирование, проведенное компанией Appen, подтверждает, что SubQ достигает высокоуровневой производительности (на уровне OpenAI и Google) при значительно меньших затратах средств и энергии.

Subquadratic заявляет о прорыве в решении проблемы квадратичного узкого места в LLM

Subquadratic заявляет о прорыве в решении проблемы квадратичного ограничения LLM

Проблема: Квадратичная сложность плотного внимания

Решение: Масштабирование с помощью разреженного внимания

Подтверждение заявлений: результаты Appen

Новая эра за пределами трансформеров?

Основные выводы

Продолжить чтение

Как работают трансформеры

Вероятно, привлекает $9 млн для борьбы с галлюцинациями LLM с помощью прецизионного инжиниринга

Прорывы в эффективности и расцвет нейрокомпьютерных интерфейсов

Новый бенчмарк AA Briefcase выявляет трудности ИИ с выполнением реальных интеллектуальных задач

Сэм Альтман утверждает, что скептики масштабирования сдерживали развитие ИИ