Patronus AI привлекает $50 млн на создание цифровых миров для стресс-тестирования агентов

По мере того как ИИ-агенты переходят от простых чат-интерфейсов к автономным сущностям, способным выполнять сложные многоэтапные задачи, отрасль сталкивается с критическим препятствием: надежностью. Patronus AI решает эту проблему, создавая сложные симуляционные среды, предназначенные для стресс-тестирования этих агентов перед их выходом в реальный мир.

Выход за рамки статических бенчмарков

На протяжении многих лет ИИ-лаборатории полагались на стандартизированные бенчмарки для демонстрации возможностей моделей. Однако высокие баллы в этих статических тестах часто не конвертируются в реальную компетентность. Агент может успешно пройти письменный тест, но потерпеть полный провал, когда ему поручат навигацию по живому веб-сайту или управление сложным финансовым рабочим процессом.

Основанная в 2023 году бывшими исследователями Meta AI Анандом Каннаппаном и Ребеккой Цянь, компания Patronus AI меняет правила игры. Вместо статических вопросов стартап использует «модели цифровых миров» для создания высокоточных реплик веб-сайтов и внутренних корпоративных систем. Эти среды позволяют агентам работать в «песочнице», имитирующей непредсказуемость реального мира, что гарантирует их способность справляться с пограничными случаями без риска нанесения реального ущерба.

«Подход Waymo» для ИИ-агентов

Ключевая инновация Patronus AI заключается в использовании обучения с подкреплением внутри этих синтетических цифровых миров. Компания проводит прямую параллель с тем, как Waymo обучает беспилотные автомобили: подобно тому, как Waymo использует симуляции, чтобы подвергать беспилотники воздействию редких опасностей, таких как суровая погода или внезапное появление пешеходов, Patronus подвергает ИИ-агентов непредсказуемым сценариям.

Серьезной проблемой современных ИИ-агентов является их склонность искать «кратчайшие пути» — находить путь наименьшего сопротивления, который технически может завершить подзадачу, но не достигает основной цели или нарушает протоколы безопасности. Симуляционная среда Patronus специально разработана для выявления таких «хаков», заставляя модели нести ответственность путем штрафования за ошибки и поощрения за истинное выполнение задачи.

Быстрый рост и масштабирование сложности

Рыночный спрос на столь строгую оценку огромен. Patronus AI сообщила о 15-кратном росте выручки за последний год, что свидетельствует о том, что передовые ИИ-лаборатории и развивающиеся стартапы остро нуждаются в автоматизированном масштабируемом тестировании. Этот импульс привел к раунду финансирования серии B в размере 50 миллионов долларов под руководством Greenfield Partners при участии Notable Capital, Lightspeed, Datadog и Samsung, что довело общий объем финансирования компании до 70 миллионов долларов.

В настоящее время компания сосредоточена на высоковерифицируемых секторах, таких как разработка программного обеспечения и финансы. Однако техническая дорожная карта амбициозна. Соучредитель Ананд Каннаппан отметил, что цель состоит в создании сред, где агенты смогут работать автономно в течение длительных периодов — от 10 часов до 10 недель — для проверки долгосрочных рассуждений и последовательности действий.

Почему это важно для экосистемы ИИ

В то время как компании, использующие подход «человек в контуре» (human-in-the-loop), такие как Mercor и Surge, предоставляют ценные данные для обучения с подкреплением, Patronus AI занимает уникальную нишу, обеспечивая автономную оценку. Исключая человека из процесса тестирования, они обеспечивают такой уровень масштаба и частоты, с которым ручное тестирование просто не может сравниться. По мере нашего движения к эре агентских рабочих процессов, способность сертифицировать надежность агента с помощью тщательной автоматизированной симуляции станет золотым стандартом для развертывания.

Основные выводы

  • Стресс-тестирование в симуляции: Patronus AI использует «модели цифровых миров» для создания реалистичных реплик веб-сайтов и систем для автономной оценки агентов.
  • Значительные вливания капитала: Раунд серии B в размере 50 млн долларов довел общий объем финансирования стартапа до 70 млн долларов на фоне 15-кратного увеличения годовой выручки.
  • Акцент на ответственности: В отличие от статических бенчмарков, Patronus выявляет «кратчайшие пути» и «хаки», которые агенты используют для обхода сложных рассуждений, обеспечивая истинную надежность.