Probably recauda 9 millones de dólares para combatir las alucinaciones de los LLM con ingeniería de precisión
A medida que los modelos de lenguaje extensos (LLM) se integran cada vez más en los flujos de trabajo profesionales, la industria se enfrenta a un obstáculo persistente: la tendencia de incluso los modelos más avanzados a alucinar. La startup Probably está abordando este desafío de frente, asegurando 9 millones de dólares en financiación semilla liderada por Andreessen Horowitz para construir un enfoque más riguroso y determinista para la fiabilidad de la IA.
Avanzando hacia una precisión del 99,99 %
La misión principal de Probably, liderada por su fundador Peter Elias, es cerrar la brecha entre la naturaleza probabilística de los LLM y el estándar de precisión del 99,99 % que se espera de los sistemas deterministas. En entornos de alto riesgo, un solo error factual puede invalidar una herramienta de IA. Para solucionar esto, Probably se está alejando de la idea de que la precisión es puramente una función del tamaño del modelo y, en su lugar, se está centrando en la "ingeniería de arnés" (harness engineering).
El producto estrella de la empresa es una herramienta de ciencia de datos diseñada para extraer información de conjuntos de datos complejos. A diferencia de los chatbots estándar que ofrecen respuestas conversacionales, la herramienta de Probably proporciona cada respuesta con una cita específica y un rastro de auditoría transparente, lo que permite a los usuarios verificar la lógica detrás de cada resultado.
La arquitectura del "traje mecánico de ciencia de datos"
En lugar de depender únicamente de las capacidades de razonamiento de un modelo masivo, Probably utiliza lo que Elias llama un "traje mecánico de ciencia de datos" (data science mech suit). Esta arquitectura funciona como un elaborado sistema de arnés donde la salida inicial del LLM es examinada inmediatamente por un validador determinista.
Si el LLM produce un resultado que no se alinea perfectamente con el conjunto de datos subyacente, el validador lo rechaza. Crucialmente, el LLM se entrena específicamente contra este validador, creando un sistema de bucle cerrado optimizado para la velocidad y la integridad factual. Este enfoque opera bajo un principio fundamental: al refinar el contexto y reducir la ambigüedad mediante la ingeniería, se puede obligar al modelo a "hacer lo correcto" sin requerir una fuerza bruta computacional masiva.
Eficiencia mediante modelos locales más pequeños
Una de las implicaciones técnicas más significativas del enfoque de Probably es la capacidad de utilizar modelos más pequeños y eficientes. Debido a que el "traje mecánico" se encarga del trabajo pesado de la validación y el refinamiento del contexto, el sistema puede funcionar con modelos que son "cuatro clases más débiles que los modelos de vanguardia" (frontier models).
This shift has massive economic and operational benefits:
- Reduced Token Costs: Smaller models significantly lower the per-query cost, a vital factor as enterprises look to optimize AI budgets.
- Local Execution: These lighter models can run on local hardware, such as desktop computers, rather than requiring expensive, high-latency data center connections.
- Scalability: The engine is designed to be extensible beyond data science into precision-sensitive sectors like accounting and medical services.
Challenging the Big AI Lab Incentive Model
Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.
Key Takeaways
- Deterministic Validation: Probably uses a "mech suit" architecture to check LLM outputs against a deterministic validator, aiming for 99.99% accuracy.
- Cost-Effective Engineering: By reducing ambiguity through better context engineering, the system can run on much smaller, cheaper models that can operate on local hardware.
- Precision-First Focus: The technology is designed to move AI into high-stakes, precision-sensitive industries like medicine and finance where hallucinations are unacceptable.