𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗢𝗻-𝗗𝗲𝘃𝗶𝗰𝗲 𝗔𝗜 𝗪𝗶𝘁𝗵 𝗢𝗹𝗹𝗮𝗺𝗮
Cloud AI ਮਾਡਲਾਂ ਕਾਰਨ ਤਿੰਨ ਮੁੱਖ ਸਮੱਸਿਆਵਾਂ ਪੈਦਾ ਹੁੰਦੀਆਂ ਹਨ:
- Network latency ਤੁਹਾਡੀ ਐਪ ਵਿੱਚ ਦੇਰੀ ਕਰਦੀ ਹੈ।
- Token ਦੀਆਂ ਲਾਗਤਾਂ ਲਗਾਤਾਰ ਬਦਲਦੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ।
- ਡਾਟਾ ਪ੍ਰਾਈਵੇਸੀ ਦੇ ਜੋਖਮ ਵਧਦੇ ਹਨ।
Local inference ਹੁਣ ਕੋਈ ਪ੍ਰਯੋਗ ਨਹੀਂ ਰਿਹਾ। ਇਹ ਐਂਟਰਪ੍ਰਾਈਜ਼ ਟੂਲਜ਼ ਲਈ ਇੱਕ ਲੋੜ ਹੈ।
Ollama ਤੁਹਾਨੂੰ ਆਪਣੇ ਹਾਰਡਵੇਅਰ 'ਤੇ Llama 3.2 ਜਾਂ Gemma ਵਰਗੇ ਮਾਡਲ ਚਲਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਲੋਕ terminal ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਡਿਵੈਲਪਰਾਂ ਨੂੰ API ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।
Ollama localhost:11434 'ਤੇ ਇੱਕ HTTP engine ਚਲਾਉਂਦਾ ਹੈ। ਤੁਸੀਂ ਵੈੱਬ ਮਾਈਕ੍ਰੋਸਰਵਿਸਿਜ਼ ਨੂੰ ਇਸ engine ਨਾਲ ਜੋੜ ਸਕਦੇ ਹੋ। ਇਹ ਸੈੱਟਅੱਪ ਬਾਹਰੀ ਨੈੱਟਵਰਕ 'ਤੇ ਨਿਰਭਰਤਾ ਨੂੰ ਖਤਮ ਕਰ ਦਿੰਦਾ ਹੈ।
ਇੱਕ ਮੁੱਖ ਟੂਲ POST /api/generate endpoint ਹੈ।
ਇਸਦੀ ਵਰਤੋਂ stateless ਕੰਮਾਂ ਲਈ ਕਰੋ। ਇਹ ਇਹਨਾਂ ਲਈ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ:
- JSON ਡਾਟਾ ਤਿਆਰ ਕਰਨਾ।
- ਬੈਕਗ੍ਰਾਊਂਡ ਵਿੱਚ ਟੈਕਸਟ ਨੂੰ ਕਲਾਸੀਫਾਈ ਕਰਨਾ।
- ਮੈਟਾਡਾਟਾ ਬਣਾਉਣਾ।
ਇਸ endpoint ਦੀ ਵਰਤੋਂ ਉਦੋਂ ਕਰੋ ਜਦੋਂ ਤੁਹਾਨੂੰ ਗੱਲਬਾਤ ਦੇ ਇਤਿਹਾਸ ਦੀ ਲੋੜ ਨਾ ਹੋਵੇ।
Example command:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Explain Quantum Computing in one short sentence.",
"stream": false
}'
ਸਹੀ inference pattern ਦੀ ਚੋਣ ਕਰਨ ਨਾਲ ਤੁਹਾਡੀ ਐਪ ਨੂੰ ਡਾਟਾ ਸਟ੍ਰੀਮਜ਼ ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਮਦਦ ਮਿਲਦੀ ਹੈ।
Optional learning community: https://t.me/GyaanSetuAi