𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

📅3 hours ago⏱2 min read

لماذا تستهلك الوكلاء التوكنز بشكل مفرط

لقد قمت بنشر وكيل برمجي (coding agent). يقوم بسحب التذاكر وتقديم طلبات السحب (PRs). إنه يعمل بشكل جيد.

ثم تصل الفاتورة.

أنفق الوكيل أموالاً أكثر مما خططت له. لا تعرف السبب. فهو يتصل بالنموذج 50 مرة لكل تذكرة. بعض الاستدعاءات هي محاولات إعادة (retries) بطيئة. وبعضها قراءات مكررة لنفس السياق.

هذه ليست مشكلة في النموذج، بل هي مشكلة في البنية التحتية. يفتقر فريقك إلى الرؤية الواضحة لمستوى الإنفاق. ليس لديك وسيلة لإيقاف وكيل خرج عن السيطرة قبل أن يستنزف ميزانيتك.

الوكلاء عبارة عن حلقات تكرارية (loops). يقرأون المهمة، يستدعون أداة، يقرأون المخرجات، ثم يكررون العملية. كل خطوة تكلف توكنز. إذا أعاد الوكيل قراءة المطالبة النظامية (system prompt) في كل دورة، فإن التكلفة تزداد بسرعة. خطأ برمجياً صغيراً قد يؤدي إلى مئات القراءات الإضافية.

أنت ترى الفاتورة، لا الاستدعاءات. وهذا وقت متأخر جداً.

الفرق الناجحة تبني ضوابط للتكلفة منذ اليوم الأول. وهي تستخدم هذه الأساليب:

وضع سقف للميزانية الشهرية.
تسجيل أي وكيل وأي مهمة تسببت في كل استدعاء.
معرفة سبب تكلفة مهمة ما أكثر من غيرها.

لتشغيل الوكلاء في بيئة الإنتاج، تحتاج إلى:

تتبع لكل وكيل: معرفة التكلفة لكل مستخدم ولكل مهمة.
مفاتيح افتراضية: عزل الفرق بحيث لا يمكن لمطور واحد استنزاف الميزانية بالكامل.
ضوابط الميزانية: وضع حدود صارمة. يجب أن ينبهك الوكيل أو يتوقف عن قبول المهام عندما يصل إلى الحد المقرر.
رؤية الإنفاق: استخدام لوحة تحكم (dashboard) لمراقبة الاتجاهات ومتوسط التكلفة لكل مهمة.
سجلات مفصلة: رؤية توزيع أنواع الاستدعاءات.

إذا فاتتك هذه الأمور، فستعمل دون رؤية واضحة.

يستخدم LiteLLM نمطاً معيناً لتجنب ذلك:

فصل العقل عن بيئة التنفيذ (sandbox): تتم عملية الاستنتاج في مكان، والتنفيذ في مكان آخر. هذا يمنع إعادة القراءة المستمرة.
واجهات أدوات واضحة: استخدام تعريفات مهيكلة بدلاً من النصوص الطويلة.
تتبع البوابة (Gateway): يتم توجيه كل استدعاء عبر بوابة مع معرف (ID) خاص بالوكيل والفريق.
فرض الميزانية: يتحقق الوكيل من ميزانيته المتبقية قبل بدء المهمة.

إذا قمت ببناء وكلاء بدون هذه الأدوات، فستواجه انفجاراً في التكاليف. يعمل الوكيل بشكل جيد حتى يواجه حالة استثنائية (edge case) أو حلقة مفرغة. وبحلول ذلك الوقت، ستكون الأموال قد نفدت.

اتخذ هذه الخطوات الآن:

راجع فاتورة الـ API الأخيرة الخاصة بك.
قم بتزويد كل استدعاء بمعرف وكيل (agent ID) ومعرف مهمة (task ID).
ضع سقفاً للميزانية اليوم.
سجل استدعاءات الأدوات للعثور على محاولات إعادة الفشل.
راجع أنماط الاستدعاء كل أسبوع.

ابنِ بنية تحتية تفصل بين الوكلاء الموثوقين والأخطاء المكلفة.

المصدر: https://dev.to/paultwist/why-your-agents-are-silently-burning-tokens-and-how-to-stop-them-7g8

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

Continue reading

تقليل تكاليف الحوسبة للوكلاء

عمليات استرجاع مقيدة لاستدعاءات أدوات الوكيل

السر الخفي لـ MCP: وكيلك يستنزف الرموز

ضريبة سياق MCP

تكلفة وكيل الذكاء الاصطناعي هي إشارة وقت تشغيل