استارتاپ Probably برای مبارزه با توهمات LLM با استفاده از مهندسی دقیق، ۹ میلیون دلار جذب کرد

با ادغام روزافزون مدل‌های زبانی بزرگ (LLMs) در جریان‌های کاری حرفه‌ای، این صنعت با یک مانع همیشگی روبروست: تمایل حتی پیشرفته‌ترین مدل‌ها به توهم (hallucinate). استارتاپ Probably مستقیماً با این چالش روبرو شده و موفق به جذب ۹ میلیون دلار سرمایه اولیه (seed funding) به رهبری Andreessen Horowitz شده است تا رویکردی دقیق‌تر و قطعی (deterministic) برای قابلیت اطمینان هوش مصنوعی ایجاد کند.

حرکت به سوی دقت ۹۹.۹۹٪

مأموریت اصلی Probably که توسط بنیان‌گذار آن، Peter Elias، هدایت می‌شود، پر کردن شکاف میان ماهیت احتمالی (probabilistic) مدل‌های LLM و استاندارد دقت ۹۹.۹۹٪ مورد انتظار از سیستم‌های قطعی (deterministic) است. در محیط‌های حساس، یک خطای واقعی واحد می‌تواند یک ابزار هوش مصنوعی را بی‌فایده کند. برای حل این مشکل، Probably از این ایده که دقت صرفاً تابعی از اندازه مدل است فاصله گرفته و در عوض بر «مهندسی مهار» (harness engineering) تمرکز کرده است.

محصول پرچم‌دار این شرکت، یک ابزار علوم داده است که برای استخراج بینش‌ها از مجموعه‌داده‌های پیچیده طراحی شده است. برخلاف چت‌بات‌های استاندارد که پاسخ‌های محاوره‌ای ارائه می‌دهند، ابزار Probably هر پاسخ را همراه با یک ارجاع مشخص و یک ردپای حسابرسی (audit trail) شفاف ارائه می‌دهد که به کاربران اجازه می‌دهد منطق پشت هر خروجی را تأیید کنند.

معماری «زره مکانیکی علوم داده» (Data Science Mech Suit)

Probably به جای تکیه صرف بر قابلیت‌های استدلالی یک مدل عظیم، از چیزی استفاده می‌کند که Elias آن را «زره مکانیکی علوم داده» (data science mech suit) می‌نامد. این معماری به عنوان یک سیستم مهار پیچیده عمل می‌کند که در آن خروجی اولیه LLM بلافاصله توسط یک اعتبارسنج قطعی (deterministic validator) مورد بررسی دقیق قرار می‌گیرد.

اگر LLM نتیجه‌ای تولید کند که با مجموعه‌داده زیربنایی مطابقت کامل نداشته باشد، اعتبارسنج آن را رد می‌کند. نکته حیاتی این است که LLM به‌طور خاص در برابر این اعتبارسنج آموزش می‌بیند و یک سیستم حلقه بسته (closed-loop) ایجاد می‌کند که برای سرعت و صحت فکت‌ها بهینه شده است. این رویکرد بر یک اصل اساسی استوار است: با اصلاح زمینه (context) و کاهش ابهام از طریق مهندسی، می‌توانید مدل را مجبور کنید تا «کار درست را انجام دهد» بدون اینکه به نیروی محاسباتی خام و عظیمی نیاز باشد.

کارایی از طریق مدل‌های کوچک‌تر و محلی

یکی از مهم‌ترین پیامدهای فنی رویکرد Probably، امکان استفاده از مدل‌های کوچک‌تر و کارآمدتر است. از آنجایی که «زره مکانیکی» کارهای سنگینِ اعتبارسنجی و اصلاح زمینه را انجام می‌دهد، سیستم می‌تواند روی مدل‌هایی کار کند که «چهار سطح از مدل‌های پیشرو (frontier models) ضعیف‌تر هستند».

این تغییر مزایای اقتصادی و عملیاتی عظیمی به همراه دارد:

به چالش کشیدن مدل انگیزشی آزمایشگاه‌های بزرگ هوش مصنوعی

الیاس به یک عدم انطباق ساختاری در چشم‌انداز فعلی هوش مصنوعی اشاره می‌کند: آزمایشگاه‌های بزرگ هوش مصنوعی انگیزه‌ای دارند تا مدل‌های عظیم و چندمنظوره بسازند که نیازمند اصلاحات مکرر توسط کاربر هستند. از آنجایی که این آزمایشگاه‌ها اغلب بر اساس میزان استفاده از توکن هزینه دریافت می‌کنند، خطاهای بیشتر و پرس‌وجوهای پیگیرانه می‌تواند در واقع درآمد آن‌ها را افزایش دهد. Probably با تمرکز بر دقت و «کاهش ابهام» از طریق مهندسی به‌جای مقیاس، در حال ایجاد جایگاهی برای کاربردهای حیاتی هوش مصنوعی است که در آن‌ها قابلیت اطمینان تنها معیار مهم است.

نکات کلیدی