𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽
ਤਿੰਨ ਮਹੀਨੇ ਪਹਿਲਾਂ, ਮੈਂ ਲਗਭਗ ਇੱਕ ਕਲਾਇੰਟ ਨੂੰ ਕੰਮ ਤੋਂ ਕੱਢ ਹੀ ਦਿੱਤਾ ਸੀ।
ਇਹ ਇਸ ਲਈ ਨਹੀਂ ਸੀ ਕਿ ਉਹ ਮੁਸ਼ਕਲ ਸਨ। ਇਹ ਇਸ ਲਈ ਸੀ ਕਿਉਂਕਿ ਉਨ੍ਹਾਂ ਦਾ LLM ਬਿੱਲ ਮੇਰਾ ਮੁਨਾਫਾ ਖਾ ਰਿਹਾ ਸੀ। ਮੈਂ ਉਨ੍ਹਾਂ ਦਾ RAG ਸਿਸਟਮ ਬਣਾਉਣ ਲਈ $4,800 ਲਏ ਸਨ। ਦੂਜੇ ਮਹੀਨੇ ਤੱਕ, ਮੈਂ ਇਸਨੂੰ ਚਲਾਉਣ ਲਈ ਸਿਰਫ਼ API ਫੀਸਾਂ 'ਤੇ $3,100 ਖਰਚ ਦਿੱਤੇ ਸਨ। ਇਹ ਕੋਈ ਕਾਰੋਬਾਰ ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਦਾਨ (charity) ਹੈ।
ਮੈਂ ਪੂਰੀ ਪਾਈਪਲਾਈਨ ਨੂੰ ਦੁਬਾਰਾ ਬਣਾਇਆ। ਮੈਂ DeepSeek 'ਤੇ ਸਵਿਚ ਕਰ ਲਿਆ ਅਤੇ ਆਪਣੇ vector store ਸੈੱਟਅੱਪ ਨੂੰ ਬਦਲ ਦਿੱਤਾ। ਹੁਣ, ਉਹੀ ਕੰਮ ਮਹੀਨੇ ਦੇ $410 ਵਿੱਚ ਹੋ ਜਾਂਦਾ ਹੈ। ਸਹੀ ਜਾਣਕਾਰੀ (accuracy) ਅਤੇ ਗੁਣਵੱਤਾ (quality) ਉਹੀ ਹੈ। ਮੈਂ ਆਪਣੀਆਂ ਲਾਗਤਾਂ ਨੂੰ ਲਗਭਗ 87% ਤੱਕ ਘਟਾ ਦਿੱਤਾ ਹੈ।
ਇੱਥੇ ਇਸ ਦੀ ਰਣਨੀਤੀ (playbook) ਹੈ।
ਜ਼ਿਆਦਾਤਰ AI ਬੋਟਸ ਦੀ ਸਮੱਸਿਆ ਇੰਜੀਨੀਅਰਿੰਗ ਨਹੀਂ ਹੈ। ਸਮੱਸਿਆ ਉਦੋਂ ਆਉਂਦੀ ਹੈ ਜਦੋਂ ਕਲਾਇੰਟ ਹਫ਼ਤੇ ਵਿੱਚ 40,000 ਕੁਐਰੀਆਂ (queries) ਚਲਾਉਂਦੇ ਹਨ ਅਤੇ ਤੁਹਾਨੂੰ ਮੁਨਾਫੇ ਵਿੱਚ ਰਹਿਣਾ ਹੁੰਦਾ ਹੈ। ਮੈਂ ਪਹਿਲਾਂ GPT-4o ਵਰਗੇ "ਸੁਰੱਖਿਅਤ" ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਸੀ। ਉਹ ਮਾਡਲ ਘਰ ਦੀ ਕਿਸ਼ਤ (mortgage) ਨਹੀਂ ਭਰ ਸਕਦੇ।
ਮੈਂ ਹਰ ਰਿਕਵੈਸਟ (request) ਨੂੰ ਟ੍ਰੈਕ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤਾ। ਮੈਂ ਟੋਕਨ ਕਾਊਂਟ (token counts) ਅਤੇ ਕੈਸ਼ ਹਿੱਟਸ (cache hits) ਨੂੰ ਦੇਖਿਆ। ਮੈਨੂੰ ਅਹਿਸਾਸ ਹੋਇਆ ਕਿ ਜ਼ਿਆਦਾਤਰ ਖਰਚਾ ਮਾਮੂਲੀ ਸਵਾਲਾਂ 'ਤੇ ਹੋ ਰਿਹਾ ਸੀ। ਲੋਕ ਵਾਰ-ਵਾਰ ਪੁੱਛ ਰਹੇ ਸਨ "ਸਾਡੀ ਰਿਫੰਡ ਪਾਲਿਸੀ ਕੀ ਹੈ।" ਇਹ ਸਵਾਲ ਹਰ ਵਾਰ ਇੱਕੋ ਜਿਹੇ ਡੇਟਾ 'ਤੇ ਪਹੁੰਚਦੇ ਸਨ।
ਮੇਰੇ ਪੁਰਾਣੇ ਸੈੱਟਅੱਪ ਵਿੱਚ ਹਰ ਚੀਜ਼ ਲਈ GPT-4o ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਸੀ। ਹਰ ਸਧਾਰਨ ਸਵਾਲ ਦੀ ਮੈਨੂੰ $0.014 ਲੱਗਦੀ ਸੀ। ਮਹੀਨੇ ਦੇ ਚਾਲੀ ਹਜ਼ਾਰ ਸਵਾਲਾਂ ਦੀ ਸਿਰਫ਼ ਸੌਖੇ ਕੰਮਾਂ ਲਈ $560 ਲੱਗਦੀ ਸੀ।
ਮੇਰਾ ਨਵਾਂ ਸੈੱਟਅੱਪ ਇੱਕ ਸਮਾਰਟ ਰੂਟਿੰਗ ਰਣਨੀਤੀ (routing strategy) ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ:
• 80% ਟ੍ਰੈਫਿਕ DeepSeek V4 Flash 'ਤੇ ਜਾਂਦਾ ਹੈ। • 20% ਗੁੰਝਲਦਾਰ ਕੰਮ DeepSeek V4 Pro ਨੂੰ ਜਾਂਦੇ ਹਨ। • ਮਾਮੂਲੀ ਕੰਮ GLM-4 Plus ਨੂੰ ਭੇਜੇ ਜਾਂਦੇ ਹਨ।
ਲਾਗਤ ਵਿੱਚ ਅੰਤਰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ। DeepSeek V4 Flash ਦੀ ਲਾਗਤ ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਇਨਪੁਟ ਟੋਕਨ $0.27 ਹੈ। GPT-4o ਦੀ ਲਾਗਤ $2.50 ਹੈ।
ਇੱਥੇ ਮੈਂ ਲਾਗਤਾਂ ਨੂੰ ਘੱਟ ਕਿਵੇਂ ਰੱਖਦਾ ਹਾਂ:
- ਲਗਾਤਾਰ ਕੈਸ਼ (Cache) ਦੀ ਵਰਤੋਂ ਕਰੋ। ਮੈਂ ਦੋ ਵਾਰ ਪੁੱਛੇ ਗਏ ਕਿਸੇ ਵੀ ਸਵਾਲ ਨੂੰ ਕੈਸ਼ ਕਰ ਲੈਂਦਾ ਹਾਂ। 40% ਕੈਸ਼ ਹਿੱਟ ਰੇਟ ਹਜ਼ਾਰਾਂ ਡਾਲਰ ਬਚਾਉਂਦਾ ਹੈ।
- ਮੁਸ਼ਕਲ ਦੇ ਅਧਾਰ 'ਤੇ ਰੂਟ ਕਰੋ। ਇੱਕ-ਵਾਕ ਦੇ ਜਵਾਬ ਲਈ ਮਹਿੰਗੇ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਨਾ ਕਰੋ।
- ਫਾਲਬੈਕ ਪਾਥ (fallback path) ਦੀ ਵਰਤੋਂ ਕਰੋ। ਜੇਕਰ ਇੱਕ ਪ੍ਰੋਵਾਈਡਰ ਬੰਦ ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਦੂਜਾ ਮਾਡਲ ਤਿਆਰ ਰੱਖੋ।
- ਗੁਣਵੱਤਾ 'ਤੇ ਨਜ਼ਰ ਰੱਖੋ। ਮੈਂ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਹਫ਼ਤਾਵਾਰੀ ਸਪੌਟ-ਚੈੱਕ (spot-checks) ਕਰਦਾ ਹਾਂ ਕਿ ਸਹੀ ਜਾਣਕਾਰੀ (accuracy) ਉੱਚੀ ਰਹੇ।
ਮੈਂ ਆਪਣੇ ਕੈਸ਼ ਵਜੋਂ ChromaDB ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹਾਂ। ਇੱਕ ਸਪੋਰਟ ਬੋਟ ਲਈ ਜਿੱਥੇ ਜ਼ਿਆਦਾਤਰ ਸਵਾਲ ਦੁਹਰਾਏ ਜਾਂਦੇ ਹਨ, ਇਹ ਕਈ ਕੁਐਰੀਆਂ ਨੂੰ ਲਗਭਗ ਮੁਫ਼ਤ ਬਣਾ ਦਿੰਦਾ ਹੈ।
ਤੁਸੀਂ ਬਿਲਡ ਫੀ (build fee) ਤੋਂ ਅਮੀਰ ਨਹੀਂ ਬਣਦੇ। ਤੁਸੀਂ ਮਹੀਨਾਵਾਰ ਰਿਟੇਨਰ (monthly retainer) ਤੋਂ ਅਮੀਰ ਬਣਦੇ ਹੋ ਜਦੋਂ ਕਲਾਇੰਟ ਤੁਹਾਡੇ ਸਿਸਟਮ 'ਤੇ ਭਰੋਸਾ ਕਰਨ ਲੱਗ ਜਾਂਦਾ ਹੈ।
ਸਰੋਤ: https://dev.to/bolddeck/i-cut-my-ai-costs-60-with-this-rag-setup-full-breakdown-2a0