Patronus AI نے ایجنٹ اسٹریس ٹیسٹنگ کے لیے ڈیجیٹل دنیاؤں کی تعمیر کے لیے 50 ملین ڈالر حاصل کر لیے

Translated for your language. Read the original.

AI-assisted draft.

In this article

Patronus AI نے ایجنٹ اسٹریس ٹیسٹنگ کے لیے ڈیجیٹل دنیاؤں کی تعمیر کے لیے 50 ملین ڈالر حاصل کر لیے

جیسے جیسے AI ایجنٹس سادہ چیٹ انٹرفیس سے خود مختار اکائیوں (autonomous entities) میں تبدیل ہو رہے ہیں جو پیچیدہ اور کثیر مراحل والے کام انجام دینے کی صلاحیت رکھتے ہیں، صنعت کو ایک اہم رکاوٹ کا سامنا ہے: یعنی قابلِ اعتماد ہونا (reliability)۔ Patronus AI حقیقی دنیا میں داخل ہونے سے پہلے ان ایجنٹس کی اسٹریس ٹیسٹنگ (stress-test) کے لیے ڈیزائن کردہ جدید مصنوعی ماحول (simulated environments) بنا کر اس چیلنج کا مقابلہ کر رہا ہے۔

جامد بینچ مارکس (Static Benchmarks) سے آگے بڑھنا

برسوں سے، AI لیبز ماڈل کی مہارت دکھانے کے لیے معیاری بینچ مارکس پر انحصار کرتی آئی ہیں۔ تاہم، ان جامد (static) ٹیسٹوں پر زیادہ اسکور اکثر حقیقی دنیا کی مہارت میں تبدیل نہیں ہو پاتے۔ ایک ایجنٹ تحریری امتحان میں کامیاب ہو سکتا ہے لیکن جب اسے کسی لائیو ویب سائٹ کو استعمال کرنے یا کسی پیچیدہ مالیاتی ورک فلو (financial workflow) کو سنبھالنے کا کام دیا جائے تو وہ بری طرح ناکام ہو سکتا ہے۔

سابقہ Meta AI کے محققین Anand Kannappan اور Rebecca Qian کی جانب سے 2023 میں قائم کردہ، Patronus AI اب معیار کے پیمانے بدل رہا ہے۔ جامد سوالات کے بجائے، یہ اسٹارٹ اپ ویب سائٹس اور اندرونی انٹرپرائز سسٹمز کے اعلیٰ معیار کے نقل (high-fidelity replicas) تیار کرنے کے لیے "ڈیجیٹل ورلڈ ماڈلز" کا استعمال کرتا ہے۔ یہ ماحول ایجنٹس کو ایک ایسے 'سینڈ باکس' (sandbox) میں کام کرنے کی اجازت دیتے ہیں جو حقیقی دنیا کی غیر متوقع صورتحال کی نقل کرتا ہے، جس سے یہ یقینی بنایا جا سکتا ہے کہ وہ حقیقی دنیا کو نقصان پہنچائے بغیر مشکل حالات (edge cases) کو سنبھال سکیں۔

AI ایجنٹس کے لیے "Waymo کا طریقہ کار"

Patronus AI کے پیچھے بنیادی جدت ان مصنوعی ڈیجیٹل دنیاؤں کے اندر 'ری انفورسمنٹ لرننگ' (reinforcement learning) کے استعمال میں پنہاں ہے۔ کمپنی اس بات کی براہ راست مثال Waymo سے دیتی ہے کہ وہ کس طرح خود مختار گاڑیوں (autonomous vehicles) کو تربیت دیتی ہے: جس طرح Waymo خودکار گاڑیوں کو شدید موسم یا اچانک پیدل چلنے والوں کی نقل و حرکت جیسے نایاب خطرات سے آگاہ کرنے کے لیے سیمولیشنز کا استعمال کرتا ہے، اسی طرح Patronus AI ایجنٹس کو غیر متوقع حالات کا سامنا کرنے کے لیے تیار کرتا ہے۔

موجودہ AI ایجنٹس کا ایک بڑا مسئلہ "شارٹ کٹس" لینے کا رجحان ہے—یعنی کم سے کم مزاحمت والا راستہ تلاش کرنا جو تکنیکی طور پر ایک ذیلی کام (sub-task) کو مکمل کر سکتا ہے لیکن مجموعی مقصد میں ناکام رہتا ہے یا حفاظتی پروٹوکولز کی خلاف ورزی کرتا ہے۔ Patronus کا سیمولیشن ماحول خاص طور پر ان "ہیکس" (hacks) کو پکڑنے کے لیے تیار کیا گیا ہے، جو غلطیوں پر جرمانہ عائد کر کے اور اصل کام کی تکمیل پر انعام دے کر ماڈلز کو جوابدہ بناتا ہے۔

تیز رفتار ترقی اور پیچیدگیوں کا پھیلاؤ

اس طرح کے سخت جانچ پڑتال کی مارکیٹ میں بہت زیادہ مانگ ہے۔ Patronus AI نے گزشتہ سال کے دوران آمدنی میں 15 گنا اضافے کی اطلاع دی ہے، جو اس بات کا اشارہ ہے کہ جدید ترین AI لیبز اور ابھرتے ہوئے اسٹارٹ اپس خودکار اور پیمانے کے قابل (scalable) ٹیسٹنگ کے لیے بے تاب ہیں۔ اس رفتار کا نتیجہ 50 ملین ڈالر کے Series B فنڈنگ راؤنڈ کی صورت میں نکلا ہے جس کی قیادت Greenfield Partners نے کی ہے، اور اس میں Notable Capital، Lightspeed، Datadog، اور Samsung نے بھی حصہ لیا ہے، جس سے ان کی کل فنڈنگ 70 ملین ڈالر تک پہنچ گئی ہے۔

فی الحال، کمپنی سافٹ ویئر انجینئرنگ اور فنانس جیسے انتہائی قابلِ تصدیق شعبوں پر توجہ مرکوز کیے ہوئے ہے۔ تاہم، ان کا تکنیکی روڈ میپ بہت پرجوش ہے۔ شریک بانی Anand Kannappan نے نوٹ کیا کہ مقصد ایسے ماحول بنانا ہے جہاں ایجنٹس طویل مدت تک—10 گھنٹوں سے لے کر 10 ہفتوں تک—خود مختار طریقے سے کام کر سکیں تاکہ طویل مدتی استدلال (reasoning) اور تسلسل کا تجربہ کیا جا سکے۔

یہ AI ایکو سسٹم کے لیے کیوں اہم ہے

اگرچہ Mercor اور Surge جیسی 'ہیومن ان دی لوپ' (human-in-the-loop) فرمیں ری انفورسمنٹ لرننگ کے لیے قیمتی ڈیٹا فراہم کرتی ہیں، لیکن Patronus AI خود مختار جانچ پڑتال کو ممکن بنا کر ایک منفرد مقام رکھتی ہے۔ ٹیسٹنگ کے عمل سے انسان کو نکال کر، وہ پیمانے اور تعدد (frequency) کی وہ سطح فراہم کرتے ہیں جس کا دستی ٹیسٹنگ (manual testing) مقابلہ نہیں کر سکتی۔ جیسے جیسے ہم ایجنٹک ورک فلو (agentic workflows) کے دور کی طرف بڑھ رہے ہیں، سخت اور خودکار سیمولیشن کے ذریعے ایجنٹ کی قابلِ اعتماد ہونے کی تصدیق کرنے کی صلاحیت تعیناتی (deployment) کے لیے 'گولڈ اسٹینڈرڈ' بن جائے گی۔

اہم نکات

سیمولیٹڈ اسٹریس ٹیسٹنگ: Patronus AI خود مختار ایجنٹ کی جانچ پڑتال کے لیے ویب سائٹس اور سسٹمز کے حقیقت پسندانہ نقل تیار کرنے کے لیے "ڈیجیٹل ورلڈ ماڈلز" کا استعمال کرتا ہے۔
بڑی سرمایہ کاری: 50 ملین ڈالر کے Series B راؤنڈ نے اسٹارٹ اپ کی کل فنڈنگ کو 70 ملین ڈالر تک پہنچا دیا ہے، جس کی وجہ سالانہ آمدنی میں 15 گنا اضافہ ہے۔
جوابدہی پر توجہ: جامد بینچ مارکس کے برعکس، Patronus ان "شارٹ کٹس" اور "ہیکس" کی نشاندہی کرتا ہے جو ایجنٹس پیچیدہ استدلال سے بچنے کے لیے استعمال کرتے ہیں، تاکہ حقیقی قابلِ اعتماد ہونے کو یقینی بنایا جا سکے۔

Patronus AI نے ایجنٹ اسٹریس ٹیسٹنگ کے لیے ڈیجیٹل دنیاؤں کی تعمیر کے لیے 50 ملین ڈالر حاصل کر لیے

Patronus AI نے ایجنٹ اسٹریس ٹیسٹنگ کے لیے ڈیجیٹل دنیاؤں کی تعمیر کے لیے 50 ملین ڈالر حاصل کر لیے

جامد بینچ مارکس (Static Benchmarks) سے آگے بڑھنا

AI ایجنٹس کے لیے "Waymo کا طریقہ کار"

تیز رفتار ترقی اور پیچیدگیوں کا پھیلاؤ

یہ AI ایکو سسٹم کے لیے کیوں اہم ہے

اہم نکات

Continue reading

Pramaana Labs Secures $27M to Solve AI Reliability with Formal Verification

AWS نے AI ایجنٹ کی سیکیورٹی اور سیاق و سباق کے خلا کو دور کرنے کے لیے نئی خدمات متعارف کروا دیں

صرف تین اے آئی ماڈلز 500 روزہ اسٹارٹ اپ سمولیشن میں بچ پائے

ایجنٹک اے آئی کا عروج: ٹیکنالوجی ٹیمیں آٹومیشن کی سرحدوں کی قیادت کیوں کر رہی ہیں

کیوں معیاری اے آئی بینچ مارکس منظم طریقے سے ایجنٹ کی صلاحیتوں کو کم تر سمجھتے ہیں