Patronus AI залучає 50 млн доларів на створення цифрових світів для стрес-тестування агентів
Оскільки ШІ-агенти переходять від простих чат-інтерфейсів до автономних сутностей, здатних виконувати складні багатоетапні завдання, галузь стикається з критичним вузьким місцем: надійністю. Patronus AI вирішує цю проблему, створюючи складні симуляційні середовища, призначені для стрес-тестування цих агентів перед їхнім виходом у реальний світ.
Вихід за межі статичних бенчмарків
Протягом багатьох років лабораторії ШІ покладалися на стандартизовані бенчмарки для демонстрації можливостей моделей. Однак високі бали в цих статичних тестах часто не конвертуються в реальну компетентність. Агент може скласти письмовий тест, але зазнати повної невдачі, коли йому доведеться навігувати на живому вебсайті або керувати складним фінансовим робочим процесом.
Заснована у 2023 році колишніми дослідниками Meta AI Анандом Каннаппаном та Ребеккою Ціань, компанія Patronus AI змінює правила гри. Замість статичних запитань стартап використовує «цифрові моделі світу» для створення високоточних реплік вебсайтів та внутрішніх корпоративних систем. Ці середовища дозволяють агентам працювати в «пісочниці», яка імітує непередбачуваність реального світу, гарантуючи, що вони зможуть справлятися з граничними випадками без ризику завдати реальної шкоди.
«Підхід Waymo» для ШІ-агентів
Основна інновація Patronus AI полягає у використанні навчання з підкріпленням у цих синтетичних цифрових світах. Компанія проводить пряму паралель із тим, як Waymo навчає автономні транспортні засоби: так само як Waymo використовує симуляції, щоб піддати безпілотні автомобілі впливу рідкісних небезпек, таких як сувора погода або раптові рухи пішоходів, Patronus піддає ШІ-агентів непередбачуваним сценаріям.
Суттєвою проблемою сучасних ШІ-агентів є їхня схильність шукати «короткі шляхи» — знаходити шлях найменшого опору, який технічно може завершити підзавдання, але не досягає головної мети або порушує протоколи безпеки. Симуляційне середовище Patronus спеціально розроблене для виявлення таких «хитрощів», притягуючи моделі до відповідальності шляхом штрафування за помилки та винагородження за справжнє виконання завдання.
Швидке зростання та масштабування складності
Ринковий попит на таку сувору оцінку є величезним. Patronus AI повідомила про 15-кратне зростання доходу за останній рік, що свідчить про те, що передові лабораторії ШІ та нові стартапи гостро потребують автоматизованого масштабованого тестування. Цей імпульс завершився раундом фінансування серії B на суму 50 мільйонів доларів під керівництвом Greenfield Partners за участю Notable Capital, Lightspeed, Datadog та Samsung, що довело загальний обсяг фінансування компанії до 70 мільйонів доларів.
Наразі компанія зосереджена на галузях з високим рівнем верифікації, таких як розробка програмного забезпечення та фінанси. Проте технічна дорожня карта є амбітною. Співзасновник Ананд Каннаппан зазначив, що мета полягає в побудові середовищ, де агенти зможуть працювати автономно протягом тривалих періодів — від 10 годин до 10 тижнів — для тестування довгострокового мислення та послідовності.
Чому це важливо для екосистеми ШІ
Хоча компанії, що використовують підхід «людина в контурі» (human-in-the-loop), такі як Mercor та Surge, надають цінні дані для навчання з підкріпленням, Patronus AI займає унікальну нішу, забезпечуючи автономну оцінку. Виключаючи людину з процесу тестування, вони досягають такого рівня масштабу та частоти, з яким ручне тестування просто не може зрівнятися. Оскільки ми рухаємося до ери агентських робочих процесів, здатність сертифікувати надійність агента за допомогою суворої автоматизованої симуляції стане золотим стандартом для розгортання.
Основні висновки
- Симуляційне стрес-тестування: Patronus AI використовує «цифрові моделі світу» для створення реалістичних реплік вебсайтів і систем для автономної оцінки агентів.
- Значне вливання капіталу: Раунд серії B на 50 млн доларів довів загальне фінансування стартапу до 70 млн доларів, що було зумовлено 15-кратним зростанням річного доходу.
- Фокус на підзвітності: На відміну від статичних бенчмарків, Patronus виявляє «короткі шляхи» та «хитрощі», які агенти використовують для обходу складних логічних процесів, забезпечуючи справжню надійність.
