فاتورة الذكاء الاصطناعي الخاصة بك ليست مشكلة نموذج، بل هي مشكلة بنية برمجية.

إذا كانت تكاليف LLM الخاصة بك في ارتفاع، فمن المرجح أنك ترغب في الانتقال إلى نموذج أرخص. قد تنتقل من GPT-4 إلى GPT-4-mini. هذا يساعد قليلاً، لكنه نادراً ما يحل المشكلة الحقيقية.

المشكلة الحقيقية تكمن في سير العمل (workflow) الخاص بك. معظم الناس يمررون كل خطوة عبر LLM، حيث يستخدمون الاستنتاج اللغوي لمهام لا تتطلبه.

يتكون كل سير عمل للذكاء الاصطناعي من أربعة أجزاء:

• المحفز (Trigger): يبدأ العمل. التكلفة تقترب من الصفر. • تعلم الآلة الحتمي (Deterministic ML): يصنف البيانات أو يضع لها تقييماً. هذا النوع رخيص. • LLM: يقرأ، ويكتب، ويستنتج. هذا النوع مكلف. • الأداة/واجهة برمجة التطبيقات (Tool/API): تجلب البيانات أو تكتبها. هذا النوع رخيص.

الفجوة بين Deterministic ML و LLM هائلة. يمكن أن يكلف LLM ما بين 100 إلى 1000 ضعف تكلفة المصنف البسيط. إذا لم تختر الأداة المناسبة لكل خطوة، فستعتمد تلقائياً على الأداة المكلفة.

لننظر إلى نظام تذاكر الدعم الفني.

التصميم السيئ يرسل التذكرة بالكامل إلى LLM؛ حيث يطلب منه تصنيف الغرض، وتوجيه التذكرة، وصياغة رد، وتحديث الـ CRM. هذا أمر مكلف للغاية. فالتصنيف لا يحتاج إلى LLM، بل يحتاج إلى نموذج بسيط لربط النص بفئة معينة.

أما التصميم الأفضل فيبدو كالتالي:

  1. المحفز (Trigger): وصول تذكرة.
  2. Deterministic ML: نموذج سريع ورخيص يقرر ما إذا كانت التذكرة تتعلق بالفواتير، أو أمور تقنية، أو رسائل مزعجة (spam).
  3. LLM: يُستخدم فقط لصياغة رد للتذاكر الصالحة.
  4. الأداة/واجهة برمجة التطبيقات (Tool/API): يقوم النظام بتحديث الـ CRM.

في هذا الإصدار، لا تصل التذاكر المزعجة (spam) إلى الـ LLM أبداً، وبذلك تتوقف عن دفع "ضريبة الـ LLM" على المهام غير المجدية.

إذا قمت بتوجيه بنيتك البرمجية بشكل صحيح، فستزيل الاستدعاءات الأكثر تكلفة حتى قبل أن تقوم بتغيير النماذج.

اتبع هذه الخطوات لخفض تكاليفك:

  • قم برسم مخطط لسير العمل الخاص بك. حدد الخطوات التي تتطلب استنتاجاً حقيقياً وتلك التي تقتصر على التصنيف أو الاستخراج فقط.
  • انقل الخطوات الحتمية (deterministic) خارج الـ prompt. استخدم طرقاً أسرع وأرخص للتوجيه والتقييم.
  • ضع قيوداً (Gate) على الـ LLM. لا تقم بتوليد ردود للمهام التي لا تتطلب ذلك.
  • قم بتقييم حجم النموذج في المرحلة الأخيرة. اختر نموذجاً أصغر لخطوة التوليد فقط بعد أن تصبح بنيتك البرمجية رشيقة (lean).

توقف عن الجدال حول أي نموذج هو الأرخص لكل توكن (token). ابدأ في بناء بنيات برمجية تستخدم المحرك المكلف فقط عند الضرورة.

المصدر: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi