مزود الذكاء الاصطناعي الخاص بك هو نقطة فشل واحدة

في يوم الجمعة الماضي، أرسلت وزارة التجارة الأمريكية خطاباً إلى Anthropic. وبحلول مساء ذلك اليوم، اختفى كل من Fable 5 و Mythos 5.

لم يتم إيقاف دعمهم، ولم يتم تقييد سرعتهم، بل اختفوا ببساطة.

أعادت استدعاءات API أخطاء 404. وفشلت الجلسات المباشرة في منتصف المحادثة. وتوقفت التطبيقات التي تعتمد على تلك النماذج عن العمل. حدث هذا بعد ثلاثة أيام فقط من الإطلاق، دون أي تحذير أو مهلة للانتقال.

لقد حالفنا الحظ لأن تلك النماذج كانت جديدة، ولم يكن أحد قد بنى عليها تبعيات عميقة بعد. تخيل حدوث هذا لنموذج تستخدمه يومياً لمدة ستة أشهر.

إذا كان بإمكان خطاب حكومي إغلاق قاعدة بياناتك الأساسية، فهل ستشغلها بدون نظام بديل (failover)؟ بالتأكيد لا. ومع ذلك، تفعل معظم الفرق ذلك مع الذكاء الاصطناعي.

تتعامل العديد من الفرق مع الذكاء الاصطناعي مثل الكهرباء؛ تضغط على المفتاح وتتوقع الضوء، دون التفكير في المصدر أو فيما يحدث عند انقطاع التيار. تختار نموذجاً، وتثبت نقطة نهاية (endpoint) برمجياً، ثم تطلق المنتج.

هذه ليست هندسة، بل هي بنية تحتية قائمة على الأمل.

يمكن أن تختفي النماذج بسبب:

لم يكن وضع Anthropic خللاً برمجياً أو فشلاً في البنية التحتية، بل كان "مفتاح إيقاف" تنظيمياً.

يجب عليك بناء المرونة في طبقة النماذج الخاصة بك. استخدم هذه الأنماط:

راقب معدلات الخطأ لديك. إذا ارتفعت بشكل مفاجئ، فافصل القاطع وقم بتوجيه حركة المرور إلى النظام البديل (fallback).

تعامل مع الذكاء الاصطناعي كأي تبعية إنتاجية حرجة أخرى. صمم نظامك تحسباً للفشل.

هل تفترض بنيتك التحتية أن المزود قد يفشل؟ إذا لم يكن الأمر كذلك، فأنت في خطر.

هل قمت ببناء نظام بديل متعدد المزودين في بنيتك التقنية؟ أخبرني في التعليقات.

المصدر: https://dev.to/aws/your-ai-provider-is-a-single-point-of-failure-26i2

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi