𝗠𝗲𝗻𝗴𝘂𝗮𝘀𝗮𝗶 𝗔𝗜 𝗽𝗮𝗱𝗮 𝗣𝗲𝗿𝗮𝗻𝘁𝗶 𝗱𝗲𝗻𝗴𝗮𝗻 𝗢𝗹𝗹𝗮𝗺𝗮

Model AI awan menyebabkan tiga masalah utama:

  • Latensi rangkaian melambatkan aplikasi anda.
  • Kos token sentiasa berubah.
  • Risiko privasi data semakin meningkat.

Inferens tempatan bukan lagi sekadar eksperimen. Ia merupakan satu keperluan bagi alatan perusahaan.

Ollama membolehkan anda menjalankan model seperti Llama 3.2 atau Gemma pada perkakasan anda sendiri. Kebanyakan orang menggunakan terminal. Pembangun pula harus menggunakan API.

Ollama menjalankan enjin HTTP pada localhost:11434. Anda boleh menyambungkan mikroperkhidmatan web ke enjin ini. Tetapan ini menghapuskan kebergantungan rangkaian luaran.

Salah satu alat utama ialah titik akhir (endpoint) POST /api/generate.

Gunakan ini untuk tugasan tanpa keadaan (stateless). Ia berfungsi dengan baik untuk:

  • Menjana data JSON.
  • Mengklasifikasikan teks di latar belakang.
  • Mencipta metadata.

Gunakan titik akhir ini apabila anda tidak memerlukan sejarah perbualan.

Contoh arahan:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Explain Quantum Computing in one short sentence.",
  "stream": false
}'

Memilih corak inferens yang betul membantu aplikasi anda mengendalikan aliran data.

Sumber: https://dev.to/nube_colectiva_nc/mastering-on-device-ai-orchestration-a-deep-dive-into-ollamas-local-api-3abk

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi