Probably lève 9 millions de dollars pour lutter contre les hallucinations des LLM grâce à l'ingénierie de précision

Alors que les modèles de langage de grande taille (LLM) s'intègrent de plus en plus dans les flux de travail professionnels, l'industrie est confrontée à un obstacle persistant : la tendance des modèles les plus avancés à halluciner. La startup Probably s'attaque de front à ce défi, ayant sécurisé 9 millions de dollars en financement d'amorçage mené par Andreessen Horowitz pour construire une approche plus rigoureuse et déterministe de la fiabilité de l'IA.

Vers une précision de 99,99 %

La mission principale de Probably, dirigée par son fondateur Peter Elias, est de combler l'écart entre la nature probabiliste des LLM et la norme de précision de 99,99 % attendue des systèmes déterministes. Dans des environnements à enjeux élevés, une seule erreur factuelle peut rendre un outil d'IA inutile. Pour résoudre ce problème, Probably s'éloigne de l'idée que la précision est uniquement fonction de la taille du modèle et se concentre plutôt sur l'« ingénierie de harnais » (harness engineering).

Le produit phare de l'entreprise est un outil de science des données conçu pour extraire des informations de jeux de données complexes. Contrairement aux chatbots standards qui fournissent des réponses conversationnelles, l'outil de Probably fournit chaque réponse avec une citation spécifique et une piste d'audit transparente, permettant aux utilisateurs de vérifier la logique derrière chaque résultat.

L'architecture « Data Science Mech Suit »

Plutôt que de s'appuyer uniquement sur les capacités de raisonnement d'un modèle massif, Probably utilise ce qu'Elias appelle un « data science mech suit ». Cette architecture fonctionne comme un système de harnais élaboré où la sortie initiale du LLM est immédiatement examinée par un validateur déterministe.

Si le LLM produit un résultat qui ne s'aligne pas parfaitement avec le jeu de données sous-jacent, le validateur le rejette. Point crucial : le LLM est spécifiquement entraîné par rapport à ce validateur, créant un système en boucle fermée optimisé pour la vitesse et l'intégrité factuelle. Cette approche repose sur un principe fondamental : en affinant le contexte et en réduisant l'ambiguïté par l'ingénierie, on peut forcer le modèle à « faire ce qu'il faut » sans nécessiter une force brute de calcul massive.

L'efficacité grâce à des modèles plus petits et locaux

L'une des implications techniques les plus significatives de l'approche de Probably est la possibilité d'utiliser des modèles plus petits et plus efficaces. Comme le « mech suit » s'occupe du gros travail de validation et d'affinage du contexte, le système peut fonctionner avec des modèles qui sont « quatre classes en dessous des modèles de pointe (frontier models) ».

This shift has massive economic and operational benefits:

Challenging the Big AI Lab Incentive Model

Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.

Key Takeaways