𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗔𝗜 𝗪𝗶𝘁𝗵 𝗢𝗹𝗹𝗮𝗺𝗮

Translated for your language. Read the original.

AI-assisted draft.

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗢𝗻-𝗗𝗲𝘃𝗶𝗰𝗲 𝗔𝗜 𝗪𝗶𝘁𝗵 𝗢𝗹𝗹𝗮𝗺𝗮

Cloud AI ਮਾਡਲਾਂ ਕਾਰਨ ਤਿੰਨ ਮੁੱਖ ਸਮੱਸਿਆਵਾਂ ਪੈਦਾ ਹੁੰਦੀਆਂ ਹਨ:

Network latency ਤੁਹਾਡੀ ਐਪ ਵਿੱਚ ਦੇਰੀ ਕਰਦੀ ਹੈ।
Token ਦੀਆਂ ਲਾਗਤਾਂ ਲਗਾਤਾਰ ਬਦਲਦੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ।
ਡਾਟਾ ਪ੍ਰਾਈਵੇਸੀ ਦੇ ਜੋਖਮ ਵਧਦੇ ਹਨ।

Local inference ਹੁਣ ਕੋਈ ਪ੍ਰਯੋਗ ਨਹੀਂ ਰਿਹਾ। ਇਹ ਐਂਟਰਪ੍ਰਾਈਜ਼ ਟੂਲਜ਼ ਲਈ ਇੱਕ ਲੋੜ ਹੈ।

Ollama ਤੁਹਾਨੂੰ ਆਪਣੇ ਹਾਰਡਵੇਅਰ 'ਤੇ Llama 3.2 ਜਾਂ Gemma ਵਰਗੇ ਮਾਡਲ ਚਲਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਲੋਕ terminal ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਡਿਵੈਲਪਰਾਂ ਨੂੰ API ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।

Ollama localhost:11434 'ਤੇ ਇੱਕ HTTP engine ਚਲਾਉਂਦਾ ਹੈ। ਤੁਸੀਂ ਵੈੱਬ ਮਾਈਕ੍ਰੋਸਰਵਿਸਿਜ਼ ਨੂੰ ਇਸ engine ਨਾਲ ਜੋੜ ਸਕਦੇ ਹੋ। ਇਹ ਸੈੱਟਅੱਪ ਬਾਹਰੀ ਨੈੱਟਵਰਕ 'ਤੇ ਨਿਰਭਰਤਾ ਨੂੰ ਖਤਮ ਕਰ ਦਿੰਦਾ ਹੈ।

ਇੱਕ ਮੁੱਖ ਟੂਲ POST /api/generate endpoint ਹੈ।

ਇਸਦੀ ਵਰਤੋਂ stateless ਕੰਮਾਂ ਲਈ ਕਰੋ। ਇਹ ਇਹਨਾਂ ਲਈ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ:

JSON ਡਾਟਾ ਤਿਆਰ ਕਰਨਾ।
ਬੈਕਗ੍ਰਾਊਂਡ ਵਿੱਚ ਟੈਕਸਟ ਨੂੰ ਕਲਾਸੀਫਾਈ ਕਰਨਾ।
ਮੈਟਾਡਾਟਾ ਬਣਾਉਣਾ।

ਇਸ endpoint ਦੀ ਵਰਤੋਂ ਉਦੋਂ ਕਰੋ ਜਦੋਂ ਤੁਹਾਨੂੰ ਗੱਲਬਾਤ ਦੇ ਇਤਿਹਾਸ ਦੀ ਲੋੜ ਨਾ ਹੋਵੇ।

Example command:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Explain Quantum Computing in one short sentence.",
  "stream": false
}'

ਸਹੀ inference pattern ਦੀ ਚੋਣ ਕਰਨ ਨਾਲ ਤੁਹਾਡੀ ਐਪ ਨੂੰ ਡਾਟਾ ਸਟ੍ਰੀਮਜ਼ ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਮਦਦ ਮਿਲਦੀ ਹੈ।

Source: https://dev.to/nube_colectiva_nc/mastering-on-device-ai-orchestration-a-deep-dive-into-ollamas-local-api-3abk

Optional learning community: https://t.me/GyaanSetuAi

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗔𝗜 𝗪𝗶𝘁𝗵 𝗢𝗹𝗹𝗮𝗺𝗮

Continue reading

𝗕𝘂𝗶𝗹𝗱 𝗮 𝗟𝗼𝗰𝗮𝗹 𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄𝗲𝗿 𝘄𝗶𝘁𝗵 𝗢𝗹𝗹𝗮𝗺𝗮

Ollama ਨਾਲ DeepSeek ਨੂੰ ਸਥਾਨਕ ਤੌਰ 'ਤੇ ਚਲਾਓ

ਕੋਡਿੰਗ ਲਈ AI ਮਾਡਲਾਂ ਨੂੰ ਸਥਾਨਕ ਤੌਰ 'ਤੇ ਚਲਾਉਣਾ

Spring AI ਅਤੇ Ollama ਨਾਲ ਇੱਕ MCP ਸਰਵਰ ਅਤੇ ਕਲਾਇੰਟ ਬਣਾਉਣਾ

Jetson Orin Nano ਅਤੇ Ollama ਦੇ ਨਾਲ ਸੈਲਫ ਹੋਸਟਿੰਗ AI