Probably recauda 9 millones de dólares para combatir las alucinaciones de los LLM con ingeniería de precisión

A medida que los modelos de lenguaje extensos (LLM) se integran cada vez más en los flujos de trabajo profesionales, la industria se enfrenta a un obstáculo persistente: la tendencia de incluso los modelos más avanzados a alucinar. La startup Probably está abordando este desafío de frente, asegurando 9 millones de dólares en financiación semilla liderada por Andreessen Horowitz para construir un enfoque más riguroso y determinista para la fiabilidad de la IA.

Avanzando hacia una precisión del 99,99 %

La misión principal de Probably, liderada por su fundador Peter Elias, es cerrar la brecha entre la naturaleza probabilística de los LLM y el estándar de precisión del 99,99 % que se espera de los sistemas deterministas. En entornos de alto riesgo, un solo error factual puede invalidar una herramienta de IA. Para solucionar esto, Probably se está alejando de la idea de que la precisión es puramente una función del tamaño del modelo y, en su lugar, se está centrando en la "ingeniería de arnés" (harness engineering).

El producto estrella de la empresa es una herramienta de ciencia de datos diseñada para extraer información de conjuntos de datos complejos. A diferencia de los chatbots estándar que ofrecen respuestas conversacionales, la herramienta de Probably proporciona cada respuesta con una cita específica y un rastro de auditoría transparente, lo que permite a los usuarios verificar la lógica detrás de cada resultado.

La arquitectura del "traje mecánico de ciencia de datos"

En lugar de depender únicamente de las capacidades de razonamiento de un modelo masivo, Probably utiliza lo que Elias llama un "traje mecánico de ciencia de datos" (data science mech suit). Esta arquitectura funciona como un elaborado sistema de arnés donde la salida inicial del LLM es examinada inmediatamente por un validador determinista.

Si el LLM produce un resultado que no se alinea perfectamente con el conjunto de datos subyacente, el validador lo rechaza. Crucialmente, el LLM se entrena específicamente contra este validador, creando un sistema de bucle cerrado optimizado para la velocidad y la integridad factual. Este enfoque opera bajo un principio fundamental: al refinar el contexto y reducir la ambigüedad mediante la ingeniería, se puede obligar al modelo a "hacer lo correcto" sin requerir una fuerza bruta computacional masiva.

Eficiencia mediante modelos locales más pequeños

Una de las implicaciones técnicas más significativas del enfoque de Probably es la capacidad de utilizar modelos más pequeños y eficientes. Debido a que el "traje mecánico" se encarga del trabajo pesado de la validación y el refinamiento del contexto, el sistema puede funcionar con modelos que son "cuatro clases más débiles que los modelos de vanguardia" (frontier models).

This shift has massive economic and operational benefits:

Challenging the Big AI Lab Incentive Model

Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.

Key Takeaways