Subquadratic affirme avoir réalisé une percée pour résoudre le goulot d'étranglement quadratique des LLM

L'industrie de l'IA est en ébullition suite aux déclarations de la startup basée à Miami, Subquadratic, qui affirme avoir résolu une limitation mathématique qui contraint les grands modèles de langage (LLM) depuis près d'une décennie. Bien que le scepticisme initial ait été élevé, des vérifications indépendantes récentes suggèrent que leur nouvelle architecture « SubQ » pourrait fondamentalement changer le paradigme de l'IA générative.

Le problème : le coût quadratique de l'attention dense

Pour comprendre l'importance de la revendication de Subquadratic, il faut comprendre l'architecture « Transformer » introduite par Google en 2017. La plupart des LLM modernes reposent sur un mécanisme appelé attention dense. Dans ce processus, chaque jeton (token — mot ou partie de mot) d'une séquence est multiplié par tous les autres jetons afin de capturer le contexte.

Cela crée une charge de calcul massive connue sous le nom d'expansion quadratique. Si vous doublez la longueur d'un texte, les besoins en calcul quadruplent approximativement. Pour un document de 10 000 mots, le modèle doit effectuer près de 50 millions de multiplications individuelles. Cette inefficacité est la raison principale pour laquelle les LLM sont réputés pour être des « gouffres énergétiques », nécessitant une énergie immense et du matériel coûteux pour traiter de longs contextes.

La solution : passer à l'échelle grâce à l'attention parcimonieuse

Le modèle SubQ de Subquadratic vise à abandonner l'attention dense au profit de l'attention parcimonieuse (sparse attention). La philosophie centrale est que toutes les relations entre les mots ne sont pas essentielles à la compréhension d'un document. Au lieu de multiplier chaque jeton par tous les autres, l'attention parcimonieuse ne sélectionne que les relations les plus pertinentes à calculer.

Bien que l'« attention parcimonieuse » ne soit pas un concept nouveau, les tentatives précédentes ont eu du mal à maintenir le niveau élevé de raisonnement et de nuance propre aux modèles à attention dense. Subquadratic affirme avoir comblé cet écart, créant un modèle qui offre l'efficacité de l'attention parcimonieuse sans la perte d'intelligence traditionnelle.

Validation des affirmations : les résultats d'Appen

Après un scepticisme initial — certains critiques comparant même ces affirmations non vérifiées à un « Theranos de l'IA » — Subquadratic a publié des benchmarks tiers provenant d'Appen, une société de premier plan dans l'évaluation de l'IA. Les résultats des tests indépendants d'Appen ont validé l'architecture SubQ, qualifiant les conclusions de « choquantes » et de potentiel « tournant majeur ».

Selon la startup, SubQ offre plusieurs avantages techniques transformateurs :

  • Fenêtre de contexte : SubQ peut traiter jusqu'à 12 fois plus de texte à la fois par rapport à la plupart des modèles actuels, ce qui le rend idéal pour l'analyse de bases de code entières ou de bibliothèques de documents massives.
  • Performance : Malgré une architecture plus légère, SubQ égale les performances des leaders du secteur tels qu'OpenAI, Google DeepMind et Anthropic sur des tâches critiques comme le codage.
  • Efficacité : Le modèle est nettement plus rapide, moins coûteux et plus économe en énergie que les modèles actuels basés sur les Transformers.

Une nouvelle ère au-delà des Transformers ?

Subquadratic ne cherche pas seulement à optimiser les modèles actuels ; l'entreprise ambitionne de remplacer l'architecture fondamentale de l'industrie. Le PDG Justin Dangel a déclaré que la société pense que l'ère de la construction sur les Transformers pourrait toucher à sa fin. Si SubQ parvient à continuer de prouver son efficacité à grande échelle, la transition d'une attention dense vers une attention parcimonieuse pourrait représenter le changement le plus significatif dans l'architecture de l'IA depuis l'invention du Transformer lui-même.

Points clés à retenir

  • Briser la barrière quadratique : SubQ utilise l'attention parcimonieuse pour éviter l'augmentation exponentielle des calculs requise par l'attention dense traditionnelle.
  • Gestion de contexte supérieure : Le modèle peut traiter 12 fois plus de données à la fois, permettant une analyse approfondie de jeux de données à grande échelle et de code volumineux.
  • Efficacité vérifiée : Des tests indépendants réalisés par Appen confirment que SubQ atteint des performances de haut niveau (égales à celles d'OpenAI et Google) pour une fraction du coût et de l'énergie.