ساخت عاملهای هوش مصنوعی که توهم نمیزنند
اگر با LLMها کار میکنید، با دیوار مشابهی روبرو میشوید. مدل یک تابع خیالی میسازد یا ابزار اشتباهی را فراخوانی میکند.
فراخوانی تابع (Function calling) باید این مشکل را حل کند، اما در عوض، اغلب باعث میشود عامل شما در مقیاس بزرگ، با اعتمادبهنفس اشتباه کند.
برای حل این مشکل، به معماری بهتر نیاز دارید، نه مدلهای بزرگتر.
از این چهار الگو برای ساخت عاملهای قابل اعتماد استفاده کنید:
۱. استفاده از یک مسیریاب دو مرحلهای (two-stage router) هرگز تمام ابزارها را یکباره به مدل ندهید. این کار باعث تورم طرحواره (schema bloat) میشود.
- ابتدا از یک مدل سریع و ارزان برای دستهبندی قصد (intent) استفاده کنید.
- فقط ابزارهایی را ارائه دهید که با آن قصد مطابقت دارند.
- این کار خطاهای مربوط به ابزار اشتباه را تا ۷۰٪ کاهش میدهد.
۲. اعمال خروجیهای ساختاریافته (structured outputs) از درخواست از مدلها برای بازگرداندن JSON معتبر از طریق پرامپت دست بردارید.
- از طرحوارههایی (schemas) استفاده کنید که در سطح API اعمال میشوند.
- از ابزارهایی مانند Pydantic برای تضمین فرمت استفاده کنید.
- محدودیتها (constraints) بیش از مهندسی پرامپت، توهم را کاهش میدهند.
۳. افزودن لایههای اعتبارسنجی هر فراخوانی ابزار به سه لایه نیاز دارد: ورودی کاربر، پیش-اعتبارسنجی و پس-اعتبارسنجی.
- خروجی مدل را قبل از اجرا با طرحواره خود مطابقت دهید.
- اگر اعتبارسنجی شکست خورد، خطا را به مدل بازگردانید.
- مدلها در ۸۰٪ مواقع وقتی بازخورد خطا را دریافت میکنند، خطاهای پارامتر خود را اصلاح میکنند.
۴. تعیین محدودیتهای سختگیرانه (hard limits) حلقههای بینهایت بودجه شما را نابود میکنند. مدل ممکن است ابزارها را در یک حلقه فراخوانی کند تا زمانی که به زمان انتظار (timeout) برسد.
- همیشه حداکثر تعداد تکرار را تعیین کنید.
- همیشه حداکثر محدودیت توکن را برای هر فراخوانی تعیین کنید.
- تعیین محدودیتهای سختگیرانه برای محیط عملیاتی (production) یک ضرورت است.
هماهنگسازی (orchestration) هوشمند باعث صرفهجویی در هزینه نیز میشود. از مدلهای مختلف برای وظایف مختلف استفاده کنید:
- مدلهای کوچک برای مسیریابی قصد و قالببندی خروجی.
- مدلهای سطح متوسط برای انتخاب ابزار.
- مدلهای پیشرو (Frontier models) برای برنامهریزیهای پیچیده.
این رویکرد هزینهها را بدون کاهش کیفیت، ۱۰ تا ۱۵ برابر کاهش میدهد.
برای اطمینان از پایداری، این سه معیار را دنبال کنید:
- دقت انتخاب ابزار (Tool Selection Accuracy): آیا ابزار درستی را فراخوانی کرد؟
- نرخ اعتبار پارامترها (Parameter Validity Rate): آیا پارامترها با طرحواره شما مطابقت داشتند؟
- نرخ تکمیل وظیفه (Task Completion Rate): آیا واقعاً مشکل را حل کرد؟
هوش مصنوعی قابل اعتماد، مربوط به طراحی سیستم است. محدودیتها، اعتبارسنجی و حفاظها (guardrails) را بسازید.
شما از چه الگوهایی برای ساخت عاملهای قابل اعتماد استفاده میکنید؟ نظرات خود را در زیر به اشتراک بگذارید.
Optional learning community: https://t.me/GyaanSetuAi