Subquadratic afirma ter alcançado um avanço na resolução do gargalo quadrático de LLMs

Translated for your language. Ler o original.

AI-assisted draft.

anteontem3min de leitura

Neste artigo

Subquadratic afirma ter alcançado um avanço na resolução do gargalo quadrático dos LLMs

A indústria de IA está em polvorosa com a startup Subquadratic, sediada em Miami, que afirma ter resolvido uma limitação matemática que tem restringido os Grandes Modelos de Linguagem (LLMs) por quase uma década. Embora o ceticismo inicial tenha sido alto, verificações independentes recentes sugerem que sua nova arquitetura "SubQ" pode mudar fundamentalmente o paradigma da IA generativa.

O Problema: O Custo Quadrático da Atenção Densa

Para entender a importância da afirmação da Subquadratic, é preciso compreender a arquitetura "Transformer" introduzida pelo Google em 2017. A maioria dos LLMs modernos depende de um mecanismo chamado atenção densa (dense attention). Nesse processo, cada token (palavra ou parte de uma palavra) em uma sequência é multiplicado por todos os outros tokens para capturar o contexto.

Isso cria uma carga computacional massiva conhecida como expansão quadrática. Se você dobrar o comprimento de um texto, os requisitos computacionais praticamente quadruplicam. Para um documento de 10.000 palavras, o modelo deve realizar quase 50 milhões de multiplicações individuais. Essa ineficiência é a principal razão pela qual os LLMs são conhecidos como "devoradores de energia" (power hogs), exigindo uma quantidade imensa de energia e hardware caro para processar contextos longos.

A Solução: Escalonamento com Atenção Esparsa

O modelo SubQ da Subquadratic visa abandonar a atenção densa em favor da atenção esparsa (sparse attention). A filosofia central é que nem toda relação entre palavras é crítica para a compreensão de um documento. Em vez de multiplicar cada token por todos os outros, a atenção esparsa seleciona apenas as relações mais relevantes para o cálculo.

Embora a "atenção esparsa" não seja um conceito novo, tentativas anteriores tiveram dificuldade em manter o alto nível de raciocínio e nuance encontrado nos modelos de atenção densa. A Subquadratic afirma ter superado essa lacuna, criando um modelo que oferece a eficiência da atenção esparsa sem a perda tradicional de inteligência.

Validando as Afirmações: Resultados da Appen

Após o ceticismo inicial — com alguns críticos chegando a comparar as afirmações não verificadas ao "Theranos da IA" — a Subquadratic divulgou benchmarks de terceiros da Appen, uma empresa líder em avaliação de IA. Os resultados dos testes independentes da Appen validaram a arquitetura SubQ, descrevendo as descobertas como "chocantes" e um potencial "divisor de águas" (game changer).

De acordo com a startup, a SubQ oferece diversas vantagens técnicas transformadoras:

Janela de Contexto: A SubQ pode processar até 12 vezes mais texto de uma só vez em comparação com a maioria dos modelos atuais, tornando-a ideal para analisar bases de código inteiras ou bibliotecas de documentos massivas.
Desempenho: Apesar da arquitetura mais enxuta, a SubQ iguala o desempenho de líderes do setor como OpenAI, Google DeepMind e Anthropic em tarefas críticas, como programação.
Eficiência: O modelo é significativamente mais rápido, mais barato e mais eficiente energeticamente do que os modelos baseados em transformers existentes.

Uma Nova Era Além dos Transformers?

A Subquadratic não busca apenas otimizar os modelos atuais; eles buscam substituir a arquitetura fundamental da indústria. O CEO Justin Dangel afirmou que a empresa acredita que a era de construir sobre Transformers pode estar chegando ao fim. Se a SubQ conseguir continuar provando sua eficácia em escala, a transição da atenção densa para a atenção esparsa poderá representar a mudança mais significativa na arquitetura de IA desde a invenção do próprio Transformer.

Principais Conclusões

Quebrando a Barreira Quadrática: A SubQ utiliza atenção esparsa para evitar o aumento exponencial no processamento exigido pela atenção densa tradicional.
Manipulação de Contexto Superior: O modelo pode processar 12x mais dados de uma só vez, permitindo uma análise profunda de conjuntos de dados de larga escala e códigos extensos.
Eficiência Verificada: Testes independentes realizados pela Appen confirmam que a SubQ alcança um desempenho de alto nível (equivalente ao da OpenAI e do Google) por uma fração do custo e da energia.

Subquadratic afirma ter alcançado um avanço na resolução do gargalo quadrático de LLMs

Subquadratic afirma ter alcançado um avanço na resolução do gargalo quadrático dos LLMs

O Problema: O Custo Quadrático da Atenção Densa

A Solução: Escalonamento com Atenção Esparsa

Validando as Afirmações: Resultados da Appen

Uma Nova Era Além dos Transformers?

Principais Conclusões

Continuar lendo

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

Probably Raises $9M to Combat LLM Hallucinations with Precision Engineering

Avanços em Eficiência e a Ascensão das Interfaces Cérebro-Computador

Novo benchmark AA Briefcase revela a dificuldade da IA com o trabalho intelectual real

Sam Altman afirma que céticos do escalonamento atrasaram o desenvolvimento da IA