Patronus AI مبلغ ۵۰ میلیون دلار برای ساخت دنیای دیجیتال جهت تست استرس عامل‌ها جذب کرد

با گذار عامل‌های هوش مصنوعی از رابط‌های چت ساده به موجودیت‌های خودمختاری که قادر به اجرای وظایف پیچیده و چندمرحله‌ای هستند، این صنعت با یک گلوگاه حیاتی روبرو شده است: قابلیت اطمینان. Patronus AI با ساخت محیط‌های شبیه‌سازی‌شده‌ی پیشرفته که برای تست استرس (stress-test) این عامل‌ها پیش از ورود به دنیای واقعی طراحی شده‌اند، در حال رسیدگی به این چالش است.

فراتر رفتن از بنچمارک‌های ایستا

سال‌هاست که آزمایشگاه‌های هوش مصنوعی برای اثبات توانمندی مدل‌های خود به بنچمارک‌های استاندارد متکی بوده‌اند. با این حال، کسب امتیاز بالا در این آزمون‌های ایستا اغلب به معنای مهارت در دنیای واقعی نیست. یک عامل ممکن است در یک آزمون کتبی موفق شود، اما هنگام مواجهه با وظایفی مانند پیمایش در یک وب‌سایت زنده یا مدیریت یک گردش کار مالی پیچیده، به شکلی فاجعه‌بار شکست بخورد.

شرکت Patronus AI که در سال ۲۰۲۳ توسط پژوهشگران سابق Meta AI، یعنی Anand Kannappan و Rebecca Qian تأسیس شده است، در حال تغییر قواعد بازی است. این استارتاپ به جای پرسش‌های ایستا، از «مدل‌های دنیای دیجیتال» برای ایجاد کپی‌های بسیار دقیق از وب‌سایت‌ها و سیستم‌های داخلی سازمانی استفاده می‌کند. این محیط‌ها به عامل‌ها اجازه می‌دهند در یک محیط ایزوله (sandbox) که غیرقابل‌پیش‌بینی بودن دنیای واقعی را تقلید می‌کند فعالیت کنند و اطمینان حاصل شود که آن‌ها می‌توانند موارد استثنایی (edge cases) را بدون خطر آسیب به دنیای واقعی مدیریت کنند.

«رویکرد Waymo» برای عامل‌های هوش مصنوعی

نوآوری اصلی Patronus AI در استفاده از یادگیری تقویتی (reinforcement learning) در این دنیای دیجیتال مصنوعی نهفته است. این شرکت شباهت مستقیمی با نحوه آموزش خودروهای خودران توسط Waymo برقرار می‌کند: همان‌طور که Waymo از شبیه‌سازی‌ها استفاده می‌کند تا خودروهای خودران را با خطرات نادری مانند شرایط جوی شدید یا حرکات ناگهانی عابران پیاده مواجه کند، Patronus نیز عامل‌های هوش مصنوعی را در معرض سناریوهای غیرقابل‌پیش‌بینی قرار می‌دهد.

یکی از مشکلات مهم عامل‌های هوش مصنوعی فعلی، تمایل آن‌ها به استفاده از «میان‌بر» است؛ یعنی یافتن مسیری با کمترین مقاومت که شاید از نظر فنی یک زیروظیفه را کامل کند، اما در رسیدن به هدف اصلی شکست بخورد یا پروتکل‌های ایمنی را نقض کند. محیط شبیه‌سازی Patronus به‌طور ویژه برای شناسایی این «حیله‌ها» (hacks) مهندسی شده است و با جریمه کردن خطاها و پاداش دادن به تکمیل واقعی وظیفه، مدل‌ها را پاسخگو نگه می‌دارد.

رشد سریع و مقیاس‌پذیری پیچیدگی

تقاضای بازار برای چنین ارزیابی‌های دقیقی بسیار زیاد است. Patronus AI رشد ۱۵ برابری درآمد خود را در سال گذشته گزارش کرده است که نشان می‌دهد آزمایشگاه‌های پیشرو هوش مصنوعی و استارتاپ‌های نوظهور، به شدت نیازمند تست‌های خودکار و مقیاس‌پذیر هستند. این شتاب منجر به جذب سرمایه ۵۰ میلیون دلاری در دور سری B به رهبری Greenfield Partners، با مشارکت Notable Capital، Lightspeed، Datadog و Samsung شده است که مجموع سرمایه آن‌ها را به ۷۰ میلیون دلار می‌رساند.

در حال حاضر، این شرکت بر بخش‌های بسیار قابل راستی‌آزمایی مانند مهندسی نرم‌افزار و امور مالی تمرکز دارد. با این حال، نقشه راه فنی آن‌ها بلندپروازانه است. Anand Kannappan، یکی از بنیان‌گذاران، خاطرنشان کرد که هدف، ساخت محیط‌هایی است که در آن عامل‌ها بتوانند برای دوره‌های طولانی — از ۱۰ ساعت تا ۱۰ هفته — به‌طور خودمختار فعالیت کنند تا استدلال و ثبات بلندمدت آن‌ها آزمایش شود.

چرا این موضوع برای اکوسیستم هوش مصنوعی اهمیت دارد

در حالی که شرکت‌های مبتنی بر «انسان در چرخه» (human-in-the-loop) مانند Mercor و Surge داده‌های ارزشمندی برای یادگیری تقویتی فراهم می‌کنند، Patronus AI با فراهم کردن امکان ارزیابی خودمختار، جایگاه منحصر‌به‌فردی را اشغال کرده است. آن‌ها با حذف انسان از چرخه تست، سطحی از مقیاس‌پذیری و تکرارپذیری را فراهم می‌کنند که تست‌های دستی به هیچ وجه قادر به رقابت با آن نیستند. با حرکت به سوی عصر جریان‌های کاری مبتنی بر عامل (agentic workflows)، توانایی تأیید قابلیت اطمینان یک عامل از طریق شبیه‌سازی دقیق و خودکار، به استاندارد طلایی برای استقرار آن‌ها تبدیل خواهد شد.

نکات کلیدی

  • تست استرس شبیه‌سازی‌شده: Patronus AI از «مدل‌های دنیای دیجیتال» برای ایجاد کپی‌های واقع‌گرایانه از وب‌سایت‌ها و سیستم‌ها جهت ارزیابی عامل‌های خودمختار استفاده می‌کند.
  • تزریق سرمایه قابل توجه: جذب ۵۰ میلیون دلار در دور سری B، با توجه به افزایش ۱۵ برابری درآمد سالانه، مجموع سرمایه این استارتاپ را به ۷۰ میلیون دلار می‌رساند.
  • تمرکز بر پاسخگویی: برخلاف بنچمارک‌های ایستا، Patronus «میان‌برها» و «حیله‌هایی» را که عامل‌ها برای دور زدن استدلال‌های پیچیده استفاده می‌کنند شناسایی می‌کند و از قابلیت اطمینان واقعی آن‌ها اطمینان حاصل می‌کند.