إتقان الذكاء الاصطناعي على الأجهزة باستخدام Ollama

تسبب نماذج الذكاء الاصطناعي السحابية ثلاث مشكلات رئيسية:

  • تأخير الشبكة يؤدي إلى بطء تطبيقك.
  • تكاليف الرموز (Tokens) تتغير باستمرار.
  • تزداد مخاطر خصوصية البيانات.

لم يعد الاستنتاج المحلي (Local inference) مجرد تجربة، بل أصبح متطلباً أساسياً لأدوات المؤسسات.

يتيح لك Ollama تشغيل نماذج مثل Llama 3.2 أو Gemma على أجهزتك الخاصة. يستخدم معظم الأشخاص واجهة السطر البرمجي (terminal)، ولكن يجب على المطورين استخدام واجهة برمجة التطبيقات (API).

يعمل Ollama بمحرك HTTP على localhost:11434. يمكنك ربط الخدمات المصغرة (microservices) عبر الويب بهذا المحرك، مما يلغي الاعتماد على الشبكات الخارجية.

إحدى الأدوات الرئيسية هي نقطة النهاية POST /api/generate.

استخدم هذه النقطة للمهام عديمة الحالة (stateless tasks). فهي تعمل بشكل جيد في:

  • إنشاء بيانات JSON.
  • تصنيف النصوص في الخلفية.
  • إنشاء البيانات الوصفية (metadata).

استخدم نقطة النهاية هذه عندما لا تحتاج إلى سجل المحادثة.

مثال على الأمر:

curl http://localhost:11434/api/generate -d '{ "model": "llama3.2", "prompt": "Explain Quantum Computing in one short sentence.", "stream": false }'

يساعد اختيار نمط الاستنتاج الصحيح تطبيقك على التعامل مع تدفقات البيانات.

المصدر: https://dev.to/nube_colectiva_nc/mastering-on-device-ai-orchestration-a-deep-dive-into-ollamas-local-api-3abk

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi