Lève probablement 9 millions de dollars pour lutter contre les hallucinations des LLM grâce à l'ingénierie de précision

📅2 hours ago⏱3 min read

In this article

Probably lève 9 millions de dollars pour lutter contre les hallucinations des LLM grâce à l'ingénierie de précision

Alors que les modèles de langage de grande taille (LLM) s'intègrent de plus en plus dans les flux de travail professionnels, l'industrie est confrontée à un obstacle persistant : la tendance des modèles les plus avancés à halluciner. La startup Probably s'attaque de front à ce défi, ayant sécurisé 9 millions de dollars en financement d'amorçage mené par Andreessen Horowitz pour construire une approche plus rigoureuse et déterministe de la fiabilité de l'IA.

Vers une précision de 99,99 %

La mission principale de Probably, dirigée par son fondateur Peter Elias, est de combler l'écart entre la nature probabiliste des LLM et la norme de précision de 99,99 % attendue des systèmes déterministes. Dans des environnements à enjeux élevés, une seule erreur factuelle peut rendre un outil d'IA inutile. Pour résoudre ce problème, Probably s'éloigne de l'idée que la précision est uniquement fonction de la taille du modèle et se concentre plutôt sur l'« ingénierie de harnais » (harness engineering).

Le produit phare de l'entreprise est un outil de science des données conçu pour extraire des informations de jeux de données complexes. Contrairement aux chatbots standards qui fournissent des réponses conversationnelles, l'outil de Probably fournit chaque réponse avec une citation spécifique et une piste d'audit transparente, permettant aux utilisateurs de vérifier la logique derrière chaque résultat.

L'architecture « Data Science Mech Suit »

Plutôt que de s'appuyer uniquement sur les capacités de raisonnement d'un modèle massif, Probably utilise ce qu'Elias appelle un « data science mech suit ». Cette architecture fonctionne comme un système de harnais élaboré où la sortie initiale du LLM est immédiatement examinée par un validateur déterministe.

Si le LLM produit un résultat qui ne s'aligne pas parfaitement avec le jeu de données sous-jacent, le validateur le rejette. Point crucial : le LLM est spécifiquement entraîné par rapport à ce validateur, créant un système en boucle fermée optimisé pour la vitesse et l'intégrité factuelle. Cette approche repose sur un principe fondamental : en affinant le contexte et en réduisant l'ambiguïté par l'ingénierie, on peut forcer le modèle à « faire ce qu'il faut » sans nécessiter une force brute de calcul massive.

L'efficacité grâce à des modèles plus petits et locaux

L'une des implications techniques les plus significatives de l'approche de Probably est la possibilité d'utiliser des modèles plus petits et plus efficaces. Comme le « mech suit » s'occupe du gros travail de validation et d'affinage du contexte, le système peut fonctionner avec des modèles qui sont « quatre classes en dessous des modèles de pointe (frontier models) ».

This shift has massive economic and operational benefits:

Reduced Token Costs: Smaller models significantly lower the per-query cost, a vital factor as enterprises look to optimize AI budgets.
Local Execution: These lighter models can run on local hardware, such as desktop computers, rather than requiring expensive, high-latency data center connections.
Scalability: The engine is designed to be extensible beyond data science into precision-sensitive sectors like accounting and medical services.

Challenging the Big AI Lab Incentive Model

Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.

Key Takeaways

Deterministic Validation: Probably uses a "mech suit" architecture to check LLM outputs against a deterministic validator, aiming for 99.99% accuracy.
Cost-Effective Engineering: By reducing ambiguity through better context engineering, the system can run on much smaller, cheaper models that can operate on local hardware.
Precision-First Focus: The technology is designed to move AI into high-stakes, precision-sensitive industries like medicine and finance where hallucinations are unacceptable.

Lève probablement 9 millions de dollars pour lutter contre les hallucinations des LLM grâce à l'ingénierie de précision

Probably lève 9 millions de dollars pour lutter contre les hallucinations des LLM grâce à l'ingénierie de précision

Vers une précision de 99,99 %

L'architecture « Data Science Mech Suit »

L'efficacité grâce à des modèles plus petits et locaux

Challenging the Big AI Lab Incentive Model

Key Takeaways

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

Red Teaming de l'IA : Sécuriser les grands modèles de langage contre les risques adverses

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Vers un service efficace des LLM