Subquadratic afirma haber logrado un avance en la resolución del cuello de botella cuadrático de los LLM

Translated for your language. Leer el original.

AI-assisted draft.

anteayer3min de lectura

En este artículo

Subquadratic afirma haber logrado un avance decisivo para resolver el cuello de botella cuadrático de los LLM

La industria de la IA está en ebullición por la startup Subquadratic, con sede en Miami, que afirma haber resuelto una limitación matemática que ha restringido a los modelos de lenguaje de gran tamaño (LLM) durante casi una década. Aunque el escepticismo inicial fue alto, verificaciones independientes recientes sugieren que su nueva arquitectura "SubQ" podría cambiar fundamentalmente el paradigma de la IA generativa.

El problema: El coste cuadrático de la atención densa

Para comprender la importancia de la afirmación de Subquadratic, es necesario entender la arquitectura "Transformer" introducida por Google en 2017. La mayoría de los LLM modernos dependen de un mecanismo llamado atención densa (dense attention). En este proceso, cada token (palabra o parte de una palabra) en una secuencia se multiplica por todos los demás tokens para capturar el contexto.

Esto crea una carga computacional masiva conocida como expansión cuadrática. Si se duplica la longitud de un texto, los requisitos computacionales se cuadruplican aproximadamente. Para un documento de 10.000 palabras, el modelo debe realizar casi 50 millones de multiplicaciones individuales. Esta ineficiencia es la razón principal por la que los LLM son conocidos por ser "devoradores de energía", ya que requieren una energía inmensa y hardware costoso para procesar contextos largos.

La solución: Escalar con atención dispersa

El modelo SubQ de Subquadratic pretende abandonar la atención densa en favor de la atención dispersa (sparse attention). La filosofía central es que no todas las relaciones entre palabras son críticas para comprender un documento. En lugar de multiplicar cada token por todos los demás, la atención dispersa selecciona únicamente las relaciones más relevantes para su cálculo.

Aunque la "atención dispersa" no es un concepto nuevo, los intentos anteriores han tenido dificultades para mantener el alto nivel de razonamiento y matices que se encuentran en los modelos de atención densa. Subquadratic afirma haber cerrado esta brecha, creando un modelo que proporciona la eficiencia de la atención dispersa sin la pérdida tradicional de inteligencia.

Validación de las afirmaciones: Resultados de Appen

Tras el escepticismo inicial —con algunos críticos comparando incluso las afirmaciones no verificadas con un "Theranos de la IA"—, Subquadratic ha publicado benchmarks de terceros de Appen, una empresa líder en evaluación de IA. Los resultados de las pruebas independientes de Appen han validado la arquitectura SubQ, describiendo los hallazgos como "impactantes" y como un potencial "punto de inflexión".

Según la startup, SubQ ofrece varias ventajas técnicas transformadoras:

Ventana de contexto: SubQ puede procesar hasta 12 veces más texto a la vez en comparación con la mayoría de los modelos actuales, lo que lo hace ideal para analizar bases de código completas o bibliotecas de documentos masivas.
Rendimiento: A pesar de su arquitectura más ligera, SubQ iguala el rendimiento de líderes de la industria como OpenAI, Google DeepMind y Anthropic en tareas críticas como la programación.
Eficiencia: El modelo es significativamente más rápido, económico y eficiente energéticamente que los modelos actuales basados en Transformers.

¿Una nueva era más allá de los Transformers?

Subquadratic no solo busca optimizar los modelos actuales; busca reemplazar la arquitectura fundacional de la industria. El CEO Justin Dangel ha declarado que la empresa cree que la era de construir sobre Transformers podría estar llegando a su fin. Si SubQ puede seguir demostrando su eficacia a escala, la transición de la atención densa a la atención dispersa podría representar el cambio más significativo en la arquitectura de la IA desde la invención del propio Transformer.

Conclusiones clave

Rompiendo la barrera cuadrática: SubQ utiliza atención dispersa para evitar el aumento exponencial de la computación requerido por la atención densa tradicional.
Gestión de contexto superior: El modelo puede procesar 12 veces más datos a la vez, lo que permite un análisis profundo de conjuntos de datos a gran escala y código extenso.
Eficiencia verificada: Pruebas independientes realizadas por Appen confirman que SubQ logra un rendimiento de alto nivel (igualando a OpenAI y Google) a una fracción del coste y la energía.

Subquadratic afirma haber logrado un avance en la resolución del cuello de botella cuadrático de los LLM

Subquadratic afirma haber logrado un avance decisivo para resolver el cuello de botella cuadrático de los LLM

El problema: El coste cuadrático de la atención densa

La solución: Escalar con atención dispersa

Validación de las afirmaciones: Resultados de Appen

¿Una nueva era más allá de los Transformers?

Conclusiones clave

Seguir leyendo

Cómo funcionan los Transformers

Probablemente recauda 9 millones de dólares para combatir las alucinaciones de los LLM con ingeniería de precisión

Avances en eficiencia y el auge de las interfaces cerebro-computadora

El nuevo benchmark AA Briefcase revela la dificultad de la IA con el trabajo de conocimiento real

Sam Altman afirma que los escépticos del escalado frenaron el desarrollo de la IA