Probably залучає $9 млн для боротьби з галюцинаціями LLM за допомогою високоточного інжинірингу
Оскільки великі мовні моделі (LLM) дедалі глибше інтегруються в професійні робочі процеси, галузь стикається з постійною перешкодою: схильністю навіть найдосконаліших моделей до галюцинацій. Стартап Probably бере цей виклик прямо, залучивши 9 мільйонів доларів посівного фінансування під керівництвом Andreessen Horowitz для розробки більш суворого, детермінованого підходу до надійності ШІ.
Рух до точності 99,99%
Основна місія Probably під керівництвом засновника Пітера Еліаса полягає в тому, щоб подолати розрив між імовірнісною природою LLM і стандартом точності 99,99%, якого очікують від детермінованих систем. У середовищах з високими ставками одна фактична помилка може зробити інструмент ШІ марним. Щоб вирішити цю проблему, Probably відходить від ідеї, що точність є суто функцією розміру моделі, і натомість зосереджується на «harness engineering» (інжинірингу систем контролю).
Флагманським продуктом компанії є інструмент для науки про дані, розроблений для вилучення інсайтів зі складних наборів даних. На відміну від стандартних чат-ботів, які надають розмовні відповіді, інструмент Probably надає кожну відповідь із конкретним посиланням та прозорим аудиторським слідом, що дозволяє користувачам перевіряти логіку кожного результату.
Архітектура «Data Science Mech Suit»
Замість того, щоб покладатися виключно на когнітивні можливості масивної моделі, Probably використовує те, що Еліас називає «data science mech suit». Ця архітектура функціонує як складна система стримування (harness system), де початковий результат LLM негайно перевіряється детермінованим валідатором.
Якщо LLM видає результат, який не узгоджується ідеально з вихідним набором даних, валідатор відхиляє його. Що важливо, LLM навчається саме на основі цього валідатора, створюючи систему замкнутого циклу, оптимізовану для швидкості та фактичної цілісності. Цей підхід базується на фундаментальному принципі: вдосконалюючи контекст і зменшуючи неоднозначність за допомогою інжинірингу, можна змусити модель «робити правильні речі» без потреби у величезній обчислювальній грубій силі.
Ефективність завдяки меншим локальним моделям
Одним із найбільш значущих технічних наслідків підходу Probably є можливість використання менших, ефективніших моделей. Оскільки «mech suit» бере на себе основне навантаження з валідації та уточнення контексту, система може працювати на моделях, які є «на чотири класи слабшими за передові (frontier) моделі».
This shift has massive economic and operational benefits:
- Reduced Token Costs: Smaller models significantly lower the per-query cost, a vital factor as enterprises look to optimize AI budgets.
- Local Execution: These lighter models can run on local hardware, such as desktop computers, rather than requiring expensive, high-latency data center connections.
- Scalability: The engine is designed to be extensible beyond data science into precision-sensitive sectors like accounting and medical services.
Challenging the Big AI Lab Incentive Model
Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.
Key Takeaways
- Deterministic Validation: Probably uses a "mech suit" architecture to check LLM outputs against a deterministic validator, aiming for 99.99% accuracy.
- Cost-Effective Engineering: By reducing ambiguity through better context engineering, the system can run on much smaller, cheaper models that can operate on local hardware.
- Precision-First Focus: The technology is designed to move AI into high-stakes, precision-sensitive industries like medicine and finance where hallucinations are unacceptable.