Subquadratic ogłasza przełom w rozwiązaniu problemu kwadratowego wąskiego gardła w modelach LLM

Translated for your language. Read the original.

AI-assisted draft.

przedwczoraj3min read

In this article

Subquadratic ogłasza przełom w rozwiązaniu kwadratowego wąskiego gardła modeli LLM

Branża AI huczy o startupie Subquadratic z siedzibą w Miami, który twierdzi, że rozwiązał ograniczenie matematyczne, które od niemal dekady hamowało duże modele językowe (LLM). Choć początkowy sceptycyzm był duży, niedawna niezależna weryfikacja sugeruje, że ich nowa architektura „SubQ” może fundamentalnie zmienić paradygmat generatywnej sztucznej inteligencji.

Problem: Kwadratowy koszt gęstej uwagi (dense attention)

Aby zrozumieć znaczenie twierdzeń Subquadratic, należy najpierw zrozumieć architekturę „Transformer” wprowadzoną przez Google w 2017 roku. Większość nowoczesnych modeli LLM opiera się na mechanizmie zwanym gęstą uwagą (dense attention). W tym procesie każdy token (słowo lub jego część) w sekwencji jest mnożony przez każdy inny token, aby uchwycić kontekst.

Powoduje to ogromne obciążenie obliczeniowe znane jako kwadratowa ekspansja. Jeśli podwoisz długość tekstu, wymagania obliczeniowe wzrosną w przybliżeniu czterokrotnie. W przypadku dokumentu liczącego 10 000 słów, model musi wykonać niemal 50 milionów poszczególnych mnożeń. Ta nieefektywność jest głównym powodem, dla którego modele LLM są znane jako „pożeracze energii”, wymagające ogromnych ilości energii i drogiego sprzętu do przetwarzania długich kontekstów.

Rozwiązanie: Skalowanie dzięki rzadkiej uwadze (sparse attention)

Model SubQ od Subquadratic ma na celu rezygnację z gęstej uwagi na rzecz rzadkiej uwagi (sparse attention). Główna filozofia polega na tym, że nie każda relacja między słowami jest kluczowa dla zrozumienia dokumentu. Zamiast mnożyć każdy token przez każdy inny, rzadka uwaga wybiera do obliczeń tylko najbardziej istotne relacje.

Choć „sparse attention” nie jest nowym pojęciem, poprzednie próby miały trudności z utrzymaniem wysokiego poziomu rozumowania i niuansów, które można znaleźć w modelach z gęstą uwagą. Subquadratic twierdzi, że udało mu się pokonać tę barierę, tworząc model, który zapewnia wydajność rzadkiej uwagi bez tradycyjnego spadku inteligencji.

Weryfikacja twierdzeń: Wyniki od Appen

Po początkowym sceptycyzmie – niektórzy krytycy porównywali nawet niezweryfikowane twierdzenia do „AI Theranos” – Subquadratic opublikowało benchmarki przeprowadzone przez niezależną firmę Appen, wiodącą organizację zajmującą się oceną AI. Wyniki niezależnych testów Appen potwierdziły architekturę SubQ, opisując znaleziska jako „szokujące” i mogące stać się potencjalnym „game changerem”.

Według startupu, SubQ oferuje kilka przełomowych zalet technicznych:

Okno kontekstowe: SubQ może przetwarzać do 12 razy więcej tekstu naraz w porównaniu z większością obecnych modeli, co czyni go idealnym do analizowania całych baz kodu lub ogromnych bibliotek dokumentów.
Wydajność: Mimo smuklejszej architektury, SubQ dorównuje wydajnością liderom branży, takim jak OpenAI, Google DeepMind i Anthropic, w krytycznych zadaniach, takich jak programowanie.
Efektywność: Model jest znacznie szybszy, tańszy i bardziej energooszczędny niż istniejące modele oparte na architekturze Transformer.

Nowa era wykraczająca poza Transformery?

Subquadratic nie dąży jedynie do optymalizacji obecnych modeli; firma chce zastąpić fundamenty architektury branżowej. CEO Justin Dangel stwierdził, że firma wierzy, iż era budowania rozwiązań w oparciu o Transformery może dobiegać końca. Jeśli SubQ będzie w stanie nadal udowadniać swoją skuteczność w dużej skali, przejście od mechanizmu uwagi gęstej do rzadkiej może stanowić najważniejszą zmianę w architekturze AI od czasu wynalezienia samego Transformera.

Kluczowe wnioski

Przełamanie bariery kwadratowej: SubQ wykorzystuje mechanizm uwagi rzadkiej, aby uniknąć wykładniczego wzrostu zapotrzebowania na moc obliczeniową, który jest wymagany przez tradycyjną uwagę gęstą.
Lepsze zarządzanie kontekstem: Model może przetwarzać 12-krotnie więcej danych naraz, co umożliwia głęboką analizę dużych zbiorów danych oraz rozbudowanego kodu.
Zweryfikowana efektywność: Niezależne testy przeprowadzone przez Appen potwierdzają, że SubQ osiąga wydajność na najwyższym poziomie (porównywalną z OpenAI i Google) przy ułamku kosztów i zużycia energii.

Subquadratic ogłasza przełom w rozwiązaniu problemu kwadratowego wąskiego gardła w modelach LLM

Subquadratic ogłasza przełom w rozwiązaniu kwadratowego wąskiego gardła modeli LLM

Problem: Kwadratowy koszt gęstej uwagi (dense attention)

Rozwiązanie: Skalowanie dzięki rzadkiej uwadze (sparse attention)

Weryfikacja twierdzeń: Wyniki od Appen

Nowa era wykraczająca poza Transformery?

Kluczowe wnioski

Continue reading

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

Prawdopodobnie pozyskuje 9 mln USD na walkę z halucynacjami LLM dzięki inżynierii precyzyjnej

Przełomy w wydajności i rozwój interfejsów mózg-komputer

Nowy benchmark AA Briefcase ujawnia trudności AI z rzeczywistą pracą intelektualną

Sam Altman twierdzi, że sceptycyzm wobec skalowania hamował rozwój AI