احتمالاً ۹ میلیون دلار برای مقابله با توهمات مدل‌های زبانی بزرگ (LLM) از طریق مهندسی دقیق جذب می‌کند

📅3 hours ago⏱3 min read

In this article

استارتاپ Probably برای مبارزه با توهمات LLM با استفاده از مهندسی دقیق، ۹ میلیون دلار جذب کرد

با ادغام روزافزون مدل‌های زبانی بزرگ (LLMs) در جریان‌های کاری حرفه‌ای، این صنعت با یک مانع همیشگی روبروست: تمایل حتی پیشرفته‌ترین مدل‌ها به توهم (hallucinate). استارتاپ Probably مستقیماً با این چالش روبرو شده و موفق به جذب ۹ میلیون دلار سرمایه اولیه (seed funding) به رهبری Andreessen Horowitz شده است تا رویکردی دقیق‌تر و قطعی (deterministic) برای قابلیت اطمینان هوش مصنوعی ایجاد کند.

حرکت به سوی دقت ۹۹.۹۹٪

مأموریت اصلی Probably که توسط بنیان‌گذار آن، Peter Elias، هدایت می‌شود، پر کردن شکاف میان ماهیت احتمالی (probabilistic) مدل‌های LLM و استاندارد دقت ۹۹.۹۹٪ مورد انتظار از سیستم‌های قطعی (deterministic) است. در محیط‌های حساس، یک خطای واقعی واحد می‌تواند یک ابزار هوش مصنوعی را بی‌فایده کند. برای حل این مشکل، Probably از این ایده که دقت صرفاً تابعی از اندازه مدل است فاصله گرفته و در عوض بر «مهندسی مهار» (harness engineering) تمرکز کرده است.

محصول پرچم‌دار این شرکت، یک ابزار علوم داده است که برای استخراج بینش‌ها از مجموعه‌داده‌های پیچیده طراحی شده است. برخلاف چت‌بات‌های استاندارد که پاسخ‌های محاوره‌ای ارائه می‌دهند، ابزار Probably هر پاسخ را همراه با یک ارجاع مشخص و یک ردپای حسابرسی (audit trail) شفاف ارائه می‌دهد که به کاربران اجازه می‌دهد منطق پشت هر خروجی را تأیید کنند.

معماری «زره مکانیکی علوم داده» (Data Science Mech Suit)

Probably به جای تکیه صرف بر قابلیت‌های استدلالی یک مدل عظیم، از چیزی استفاده می‌کند که Elias آن را «زره مکانیکی علوم داده» (data science mech suit) می‌نامد. این معماری به عنوان یک سیستم مهار پیچیده عمل می‌کند که در آن خروجی اولیه LLM بلافاصله توسط یک اعتبارسنج قطعی (deterministic validator) مورد بررسی دقیق قرار می‌گیرد.

اگر LLM نتیجه‌ای تولید کند که با مجموعه‌داده زیربنایی مطابقت کامل نداشته باشد، اعتبارسنج آن را رد می‌کند. نکته حیاتی این است که LLM به‌طور خاص در برابر این اعتبارسنج آموزش می‌بیند و یک سیستم حلقه بسته (closed-loop) ایجاد می‌کند که برای سرعت و صحت فکت‌ها بهینه شده است. این رویکرد بر یک اصل اساسی استوار است: با اصلاح زمینه (context) و کاهش ابهام از طریق مهندسی، می‌توانید مدل را مجبور کنید تا «کار درست را انجام دهد» بدون اینکه به نیروی محاسباتی خام و عظیمی نیاز باشد.

کارایی از طریق مدل‌های کوچک‌تر و محلی

یکی از مهم‌ترین پیامدهای فنی رویکرد Probably، امکان استفاده از مدل‌های کوچک‌تر و کارآمدتر است. از آنجایی که «زره مکانیکی» کارهای سنگینِ اعتبارسنجی و اصلاح زمینه را انجام می‌دهد، سیستم می‌تواند روی مدل‌هایی کار کند که «چهار سطح از مدل‌های پیشرو (frontier models) ضعیف‌تر هستند».

این تغییر مزایای اقتصادی و عملیاتی عظیمی به همراه دارد:

کاهش هزینه‌های توکن: مدل‌های کوچک‌تر هزینه هر پرس‌وجو را به‌طور قابل‌توجهی کاهش می‌دهند؛ عاملی حیاتی از آنجایی که شرکت‌ها به دنبال بهینه‌سازی بودجه‌های هوش مصنوعی خود هستند.
اجرای محلی: این مدل‌های سبک‌تر می‌توانند روی سخت‌افزارهای محلی، مانند کامپیوترهای رومیزی، اجرا شوند، به جای اینکه نیازی به اتصالات گران‌قیمت و با تأخیر بالا به مراکز داده داشته باشند.
مقیاس‌پذیری: این موتور به‌گونه‌ای طراحی شده است که فراتر از علم داده، به بخش‌های حساس به دقت مانند حسابداری و خدمات پزشکی قابل گسترش باشد.

به چالش کشیدن مدل انگیزشی آزمایشگاه‌های بزرگ هوش مصنوعی

الیاس به یک عدم انطباق ساختاری در چشم‌انداز فعلی هوش مصنوعی اشاره می‌کند: آزمایشگاه‌های بزرگ هوش مصنوعی انگیزه‌ای دارند تا مدل‌های عظیم و چندمنظوره بسازند که نیازمند اصلاحات مکرر توسط کاربر هستند. از آنجایی که این آزمایشگاه‌ها اغلب بر اساس میزان استفاده از توکن هزینه دریافت می‌کنند، خطاهای بیشتر و پرس‌وجوهای پیگیرانه می‌تواند در واقع درآمد آن‌ها را افزایش دهد. Probably با تمرکز بر دقت و «کاهش ابهام» از طریق مهندسی به‌جای مقیاس، در حال ایجاد جایگاهی برای کاربردهای حیاتی هوش مصنوعی است که در آن‌ها قابلیت اطمینان تنها معیار مهم است.

نکات کلیدی

اعتبارسنجی قطعی (Deterministic): Probably از یک معماری "mech suit" برای بررسی خروجی‌های LLM در برابر یک اعتبارسنج قطعی استفاده می‌کند و هدف آن دستیابی به دقت ۹۹.۹۹٪ است.
مهندسی مقرون‌به‌صرفه: با کاهش ابهام از طریق مهندسی زمینه (context engineering) بهتر، سیستم می‌تواند روی مدل‌های بسیار کوچک‌تر و ارزان‌تر که قابلیت اجرا روی سخت‌افزار محلی را دارند، کار کند.
تمرکز بر اولویت دقت: این فناوری به‌گونه‌ای طراحی شده است که هوش مصنوعی را به صنایع حساس و پرمخاطره‌ای مانند پزشکی و امور مالی سوق دهد، جایی که توهمات (hallucinations) غیرقابل قبول هستند.

احتمالاً ۹ میلیون دلار برای مقابله با توهمات مدل‌های زبانی بزرگ (LLM) از طریق مهندسی دقیق جذب می‌کند

استارتاپ Probably برای مبارزه با توهمات LLM با استفاده از مهندسی دقیق، ۹ میلیون دلار جذب کرد

حرکت به سوی دقت ۹۹.۹۹٪

معماری «زره مکانیکی علوم داده» (Data Science Mech Suit)

کارایی از طریق مدل‌های کوچک‌تر و محلی

به چالش کشیدن مدل انگیزشی آزمایشگاه‌های بزرگ هوش مصنوعی

نکات کلیدی

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

تیم قرمز هوش مصنوعی: ایمن‌سازی مدل‌های زبانی بزرگ در برابر مخاطرات خصمانه

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

به سوی سرویس‌دهی کارآمد LLM