Ймовірно, залучає 9 млн доларів для боротьби з галюцинаціями LLM за допомогою прецизійної інженерії

📅2 hours ago⏱3 min read

In this article

Probably залучає $9 млн для боротьби з галюцинаціями LLM за допомогою високоточного інжинірингу

Оскільки великі мовні моделі (LLM) дедалі глибше інтегруються в професійні робочі процеси, галузь стикається з постійною перешкодою: схильністю навіть найдосконаліших моделей до галюцинацій. Стартап Probably бере цей виклик прямо, залучивши 9 мільйонів доларів посівного фінансування під керівництвом Andreessen Horowitz для розробки більш суворого, детермінованого підходу до надійності ШІ.

Рух до точності 99,99%

Основна місія Probably під керівництвом засновника Пітера Еліаса полягає в тому, щоб подолати розрив між імовірнісною природою LLM і стандартом точності 99,99%, якого очікують від детермінованих систем. У середовищах з високими ставками одна фактична помилка може зробити інструмент ШІ марним. Щоб вирішити цю проблему, Probably відходить від ідеї, що точність є суто функцією розміру моделі, і натомість зосереджується на «harness engineering» (інжинірингу систем контролю).

Флагманським продуктом компанії є інструмент для науки про дані, розроблений для вилучення інсайтів зі складних наборів даних. На відміну від стандартних чат-ботів, які надають розмовні відповіді, інструмент Probably надає кожну відповідь із конкретним посиланням та прозорим аудиторським слідом, що дозволяє користувачам перевіряти логіку кожного результату.

Архітектура «Data Science Mech Suit»

Замість того, щоб покладатися виключно на когнітивні можливості масивної моделі, Probably використовує те, що Еліас називає «data science mech suit». Ця архітектура функціонує як складна система стримування (harness system), де початковий результат LLM негайно перевіряється детермінованим валідатором.

Якщо LLM видає результат, який не узгоджується ідеально з вихідним набором даних, валідатор відхиляє його. Що важливо, LLM навчається саме на основі цього валідатора, створюючи систему замкнутого циклу, оптимізовану для швидкості та фактичної цілісності. Цей підхід базується на фундаментальному принципі: вдосконалюючи контекст і зменшуючи неоднозначність за допомогою інжинірингу, можна змусити модель «робити правильні речі» без потреби у величезній обчислювальній грубій силі.

Ефективність завдяки меншим локальним моделям

Одним із найбільш значущих технічних наслідків підходу Probably є можливість використання менших, ефективніших моделей. Оскільки «mech suit» бере на себе основне навантаження з валідації та уточнення контексту, система може працювати на моделях, які є «на чотири класи слабшими за передові (frontier) моделі».

This shift has massive economic and operational benefits:

Reduced Token Costs: Smaller models significantly lower the per-query cost, a vital factor as enterprises look to optimize AI budgets.
Local Execution: These lighter models can run on local hardware, such as desktop computers, rather than requiring expensive, high-latency data center connections.
Scalability: The engine is designed to be extensible beyond data science into precision-sensitive sectors like accounting and medical services.

Challenging the Big AI Lab Incentive Model

Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.

Key Takeaways

Deterministic Validation: Probably uses a "mech suit" architecture to check LLM outputs against a deterministic validator, aiming for 99.99% accuracy.
Cost-Effective Engineering: By reducing ambiguity through better context engineering, the system can run on much smaller, cheaper models that can operate on local hardware.
Precision-First Focus: The technology is designed to move AI into high-stakes, precision-sensitive industries like medicine and finance where hallucinations are unacceptable.

Ймовірно, залучає 9 млн доларів для боротьби з галюцинаціями LLM за допомогою прецизійної інженерії

Probably залучає $9 млн для боротьби з галюцинаціями LLM за допомогою високоточного інжинірингу

Рух до точності 99,99%

Архітектура «Data Science Mech Suit»

Ефективність завдяки меншим локальним моделям

Challenging the Big AI Lab Incentive Model

Key Takeaways

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

AI Red Teaming: Securing Large Language Models Against Adversarial Risks

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

На шляху до ефективного сервінгу LLM