استارتاپ Probably برای مبارزه با توهمات LLM با استفاده از مهندسی دقیق، ۹ میلیون دلار جذب کرد
با ادغام روزافزون مدلهای زبانی بزرگ (LLMs) در جریانهای کاری حرفهای، این صنعت با یک مانع همیشگی روبروست: تمایل حتی پیشرفتهترین مدلها به توهم (hallucinate). استارتاپ Probably مستقیماً با این چالش روبرو شده و موفق به جذب ۹ میلیون دلار سرمایه اولیه (seed funding) به رهبری Andreessen Horowitz شده است تا رویکردی دقیقتر و قطعی (deterministic) برای قابلیت اطمینان هوش مصنوعی ایجاد کند.
حرکت به سوی دقت ۹۹.۹۹٪
مأموریت اصلی Probably که توسط بنیانگذار آن، Peter Elias، هدایت میشود، پر کردن شکاف میان ماهیت احتمالی (probabilistic) مدلهای LLM و استاندارد دقت ۹۹.۹۹٪ مورد انتظار از سیستمهای قطعی (deterministic) است. در محیطهای حساس، یک خطای واقعی واحد میتواند یک ابزار هوش مصنوعی را بیفایده کند. برای حل این مشکل، Probably از این ایده که دقت صرفاً تابعی از اندازه مدل است فاصله گرفته و در عوض بر «مهندسی مهار» (harness engineering) تمرکز کرده است.
محصول پرچمدار این شرکت، یک ابزار علوم داده است که برای استخراج بینشها از مجموعهدادههای پیچیده طراحی شده است. برخلاف چتباتهای استاندارد که پاسخهای محاورهای ارائه میدهند، ابزار Probably هر پاسخ را همراه با یک ارجاع مشخص و یک ردپای حسابرسی (audit trail) شفاف ارائه میدهد که به کاربران اجازه میدهد منطق پشت هر خروجی را تأیید کنند.
معماری «زره مکانیکی علوم داده» (Data Science Mech Suit)
Probably به جای تکیه صرف بر قابلیتهای استدلالی یک مدل عظیم، از چیزی استفاده میکند که Elias آن را «زره مکانیکی علوم داده» (data science mech suit) مینامد. این معماری به عنوان یک سیستم مهار پیچیده عمل میکند که در آن خروجی اولیه LLM بلافاصله توسط یک اعتبارسنج قطعی (deterministic validator) مورد بررسی دقیق قرار میگیرد.
اگر LLM نتیجهای تولید کند که با مجموعهداده زیربنایی مطابقت کامل نداشته باشد، اعتبارسنج آن را رد میکند. نکته حیاتی این است که LLM بهطور خاص در برابر این اعتبارسنج آموزش میبیند و یک سیستم حلقه بسته (closed-loop) ایجاد میکند که برای سرعت و صحت فکتها بهینه شده است. این رویکرد بر یک اصل اساسی استوار است: با اصلاح زمینه (context) و کاهش ابهام از طریق مهندسی، میتوانید مدل را مجبور کنید تا «کار درست را انجام دهد» بدون اینکه به نیروی محاسباتی خام و عظیمی نیاز باشد.
کارایی از طریق مدلهای کوچکتر و محلی
یکی از مهمترین پیامدهای فنی رویکرد Probably، امکان استفاده از مدلهای کوچکتر و کارآمدتر است. از آنجایی که «زره مکانیکی» کارهای سنگینِ اعتبارسنجی و اصلاح زمینه را انجام میدهد، سیستم میتواند روی مدلهایی کار کند که «چهار سطح از مدلهای پیشرو (frontier models) ضعیفتر هستند».
این تغییر مزایای اقتصادی و عملیاتی عظیمی به همراه دارد:
- کاهش هزینههای توکن: مدلهای کوچکتر هزینه هر پرسوجو را بهطور قابلتوجهی کاهش میدهند؛ عاملی حیاتی از آنجایی که شرکتها به دنبال بهینهسازی بودجههای هوش مصنوعی خود هستند.
- اجرای محلی: این مدلهای سبکتر میتوانند روی سختافزارهای محلی، مانند کامپیوترهای رومیزی، اجرا شوند، به جای اینکه نیازی به اتصالات گرانقیمت و با تأخیر بالا به مراکز داده داشته باشند.
- مقیاسپذیری: این موتور بهگونهای طراحی شده است که فراتر از علم داده، به بخشهای حساس به دقت مانند حسابداری و خدمات پزشکی قابل گسترش باشد.
به چالش کشیدن مدل انگیزشی آزمایشگاههای بزرگ هوش مصنوعی
الیاس به یک عدم انطباق ساختاری در چشمانداز فعلی هوش مصنوعی اشاره میکند: آزمایشگاههای بزرگ هوش مصنوعی انگیزهای دارند تا مدلهای عظیم و چندمنظوره بسازند که نیازمند اصلاحات مکرر توسط کاربر هستند. از آنجایی که این آزمایشگاهها اغلب بر اساس میزان استفاده از توکن هزینه دریافت میکنند، خطاهای بیشتر و پرسوجوهای پیگیرانه میتواند در واقع درآمد آنها را افزایش دهد. Probably با تمرکز بر دقت و «کاهش ابهام» از طریق مهندسی بهجای مقیاس، در حال ایجاد جایگاهی برای کاربردهای حیاتی هوش مصنوعی است که در آنها قابلیت اطمینان تنها معیار مهم است.
نکات کلیدی
- اعتبارسنجی قطعی (Deterministic): Probably از یک معماری "mech suit" برای بررسی خروجیهای LLM در برابر یک اعتبارسنج قطعی استفاده میکند و هدف آن دستیابی به دقت ۹۹.۹۹٪ است.
- مهندسی مقرونبهصرفه: با کاهش ابهام از طریق مهندسی زمینه (context engineering) بهتر، سیستم میتواند روی مدلهای بسیار کوچکتر و ارزانتر که قابلیت اجرا روی سختافزار محلی را دارند، کار کند.
- تمرکز بر اولویت دقت: این فناوری بهگونهای طراحی شده است که هوش مصنوعی را به صنایع حساس و پرمخاطرهای مانند پزشکی و امور مالی سوق دهد، جایی که توهمات (hallucinations) غیرقابل قبول هستند.