ساخت عامل‌های هوش مصنوعی که توهم نمی‌زنند

اگر با LLMها کار می‌کنید، با دیوار مشابهی روبرو می‌شوید. مدل یک تابع خیالی می‌سازد یا ابزار اشتباهی را فراخوانی می‌کند.

فراخوانی تابع (Function calling) باید این مشکل را حل کند، اما در عوض، اغلب باعث می‌شود عامل شما در مقیاس بزرگ، با اعتمادبه‌نفس اشتباه کند.

برای حل این مشکل، به معماری بهتر نیاز دارید، نه مدل‌های بزرگ‌تر.

از این چهار الگو برای ساخت عامل‌های قابل اعتماد استفاده کنید:

۱. استفاده از یک مسیریاب دو مرحله‌ای (two-stage router) هرگز تمام ابزارها را یک‌باره به مدل ندهید. این کار باعث تورم طرحواره (schema bloat) می‌شود.

  • ابتدا از یک مدل سریع و ارزان برای دسته‌بندی قصد (intent) استفاده کنید.
  • فقط ابزارهایی را ارائه دهید که با آن قصد مطابقت دارند.
  • این کار خطاهای مربوط به ابزار اشتباه را تا ۷۰٪ کاهش می‌دهد.

۲. اعمال خروجی‌های ساختاریافته (structured outputs) از درخواست از مدل‌ها برای بازگرداندن JSON معتبر از طریق پرامپت دست بردارید.

  • از طرحواره‌هایی (schemas) استفاده کنید که در سطح API اعمال می‌شوند.
  • از ابزارهایی مانند Pydantic برای تضمین فرمت استفاده کنید.
  • محدودیت‌ها (constraints) بیش از مهندسی پرامپت، توهم را کاهش می‌دهند.

۳. افزودن لایه‌های اعتبارسنجی هر فراخوانی ابزار به سه لایه نیاز دارد: ورودی کاربر، پیش-اعتبارسنجی و پس-اعتبارسنجی.

  • خروجی مدل را قبل از اجرا با طرحواره خود مطابقت دهید.
  • اگر اعتبارسنجی شکست خورد، خطا را به مدل بازگردانید.
  • مدل‌ها در ۸۰٪ مواقع وقتی بازخورد خطا را دریافت می‌کنند، خطاهای پارامتر خود را اصلاح می‌کنند.

۴. تعیین محدودیت‌های سخت‌گیرانه (hard limits) حلقه‌های بی‌نهایت بودجه شما را نابود می‌کنند. مدل ممکن است ابزارها را در یک حلقه فراخوانی کند تا زمانی که به زمان انتظار (timeout) برسد.

  • همیشه حداکثر تعداد تکرار را تعیین کنید.
  • همیشه حداکثر محدودیت توکن را برای هر فراخوانی تعیین کنید.
  • تعیین محدودیت‌های سخت‌گیرانه برای محیط عملیاتی (production) یک ضرورت است.

هماهنگ‌سازی (orchestration) هوشمند باعث صرفه‌جویی در هزینه نیز می‌شود. از مدل‌های مختلف برای وظایف مختلف استفاده کنید:

  • مدل‌های کوچک برای مسیریابی قصد و قالب‌بندی خروجی.
  • مدل‌های سطح متوسط برای انتخاب ابزار.
  • مدل‌های پیشرو (Frontier models) برای برنامه‌ریزی‌های پیچیده.

این رویکرد هزینه‌ها را بدون کاهش کیفیت، ۱۰ تا ۱۵ برابر کاهش می‌دهد.

برای اطمینان از پایداری، این سه معیار را دنبال کنید:

  • دقت انتخاب ابزار (Tool Selection Accuracy): آیا ابزار درستی را فراخوانی کرد؟
  • نرخ اعتبار پارامترها (Parameter Validity Rate): آیا پارامترها با طرحواره شما مطابقت داشتند؟
  • نرخ تکمیل وظیفه (Task Completion Rate): آیا واقعاً مشکل را حل کرد؟

هوش مصنوعی قابل اعتماد، مربوط به طراحی سیستم است. محدودیت‌ها، اعتبارسنجی و حفاظ‌ها (guardrails) را بسازید.

شما از چه الگوهایی برای ساخت عامل‌های قابل اعتماد استفاده می‌کنید؟ نظرات خود را در زیر به اشتراک بگذارید.

Source: https://dev.to/aiwave/building-ai-agents-that-dont-hallucinate-a-practical-guide-to-function-calling-in-2026-3dde

Optional learning community: https://t.me/GyaanSetuAi