Probably залучає $9 млн для боротьби з галюцинаціями LLM за допомогою високоточного інжинірингу

Оскільки великі мовні моделі (LLM) дедалі глибше інтегруються в професійні робочі процеси, галузь стикається з постійною перешкодою: схильністю навіть найдосконаліших моделей до галюцинацій. Стартап Probably бере цей виклик прямо, залучивши 9 мільйонів доларів посівного фінансування під керівництвом Andreessen Horowitz для розробки більш суворого, детермінованого підходу до надійності ШІ.

Рух до точності 99,99%

Основна місія Probably під керівництвом засновника Пітера Еліаса полягає в тому, щоб подолати розрив між імовірнісною природою LLM і стандартом точності 99,99%, якого очікують від детермінованих систем. У середовищах з високими ставками одна фактична помилка може зробити інструмент ШІ марним. Щоб вирішити цю проблему, Probably відходить від ідеї, що точність є суто функцією розміру моделі, і натомість зосереджується на «harness engineering» (інжинірингу систем контролю).

Флагманським продуктом компанії є інструмент для науки про дані, розроблений для вилучення інсайтів зі складних наборів даних. На відміну від стандартних чат-ботів, які надають розмовні відповіді, інструмент Probably надає кожну відповідь із конкретним посиланням та прозорим аудиторським слідом, що дозволяє користувачам перевіряти логіку кожного результату.

Архітектура «Data Science Mech Suit»

Замість того, щоб покладатися виключно на когнітивні можливості масивної моделі, Probably використовує те, що Еліас називає «data science mech suit». Ця архітектура функціонує як складна система стримування (harness system), де початковий результат LLM негайно перевіряється детермінованим валідатором.

Якщо LLM видає результат, який не узгоджується ідеально з вихідним набором даних, валідатор відхиляє його. Що важливо, LLM навчається саме на основі цього валідатора, створюючи систему замкнутого циклу, оптимізовану для швидкості та фактичної цілісності. Цей підхід базується на фундаментальному принципі: вдосконалюючи контекст і зменшуючи неоднозначність за допомогою інжинірингу, можна змусити модель «робити правильні речі» без потреби у величезній обчислювальній грубій силі.

Ефективність завдяки меншим локальним моделям

Одним із найбільш значущих технічних наслідків підходу Probably є можливість використання менших, ефективніших моделей. Оскільки «mech suit» бере на себе основне навантаження з валідації та уточнення контексту, система може працювати на моделях, які є «на чотири класи слабшими за передові (frontier) моделі».

This shift has massive economic and operational benefits:

Challenging the Big AI Lab Incentive Model

Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.

Key Takeaways