لماذا تستهلك الوكلاء التوكنز بشكل مفرط

لقد قمت بنشر وكيل برمجي (coding agent). يقوم بسحب التذاكر وتقديم طلبات السحب (PRs). إنه يعمل بشكل جيد.

ثم تصل الفاتورة.

أنفق الوكيل أموالاً أكثر مما خططت له. لا تعرف السبب. فهو يتصل بالنموذج 50 مرة لكل تذكرة. بعض الاستدعاءات هي محاولات إعادة (retries) بطيئة. وبعضها قراءات مكررة لنفس السياق.

هذه ليست مشكلة في النموذج، بل هي مشكلة في البنية التحتية. يفتقر فريقك إلى الرؤية الواضحة لمستوى الإنفاق. ليس لديك وسيلة لإيقاف وكيل خرج عن السيطرة قبل أن يستنزف ميزانيتك.

الوكلاء عبارة عن حلقات تكرارية (loops). يقرأون المهمة، يستدعون أداة، يقرأون المخرجات، ثم يكررون العملية. كل خطوة تكلف توكنز. إذا أعاد الوكيل قراءة المطالبة النظامية (system prompt) في كل دورة، فإن التكلفة تزداد بسرعة. خطأ برمجياً صغيراً قد يؤدي إلى مئات القراءات الإضافية.

أنت ترى الفاتورة، لا الاستدعاءات. وهذا وقت متأخر جداً.

الفرق الناجحة تبني ضوابط للتكلفة منذ اليوم الأول. وهي تستخدم هذه الأساليب:

لتشغيل الوكلاء في بيئة الإنتاج، تحتاج إلى:

إذا فاتتك هذه الأمور، فستعمل دون رؤية واضحة.

يستخدم LiteLLM نمطاً معيناً لتجنب ذلك:

إذا قمت ببناء وكلاء بدون هذه الأدوات، فستواجه انفجاراً في التكاليف. يعمل الوكيل بشكل جيد حتى يواجه حالة استثنائية (edge case) أو حلقة مفرغة. وبحلول ذلك الوقت، ستكون الأموال قد نفدت.

اتخذ هذه الخطوات الآن:

ابنِ بنية تحتية تفصل بين الوكلاء الموثوقين والأخطاء المكلفة.

المصدر: https://dev.to/paultwist/why-your-agents-are-silently-burning-tokens-and-how-to-stop-them-7g8

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi