𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹

ਪਿਛਲੇ ਮਹੀਨੇ, ਮੇਰਾ AI API ਬਿੱਲ 120 USD ਤੋਂ ਵਧ ਕੇ 480 USD ਹੋ ਗਿਆ। ਮੈਂ ਬਿਨਾਂ ਆਪਟੀਮਾਈਜ਼ ਕੀਤੇ ਨਵੇਂ ਫੀਚਰ ਜੋੜ ਦਿੱਤੇ ਸਨ। ਇਸ ਨੂੰ ਮੈਂ 'Tokenpocalypse' ਕਹਿੰਦਾ ਹਾਂ। ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ, ਟੋਕਨ ਲਾਗਤਾਂ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨਾ ਇੱਕ ਜ਼ਰੂਰਤ ਹੈ।

ਤੁਹਾਡੇ AI ਖਰਚਿਆਂ ਨੂੰ ਘਟਾਉਣ ਲਈ ਇੱਥੇ 7 ਵਿਹਾਰਕ ਤਰੀਕੇ ਹਨ:

  1. ਆਪਣੇ ਪ੍ਰੋਂਪਟਸ (prompts) ਨੂੰ ਆਪਟੀਮਾਈਜ਼ ਕਰੋ ਹਰ ਅੱਖਰ ਦੀ ਕੀਮਤ ਹੁੰਦੀ ਹੈ। ਨਿਮਰਤਾ ਭਰੇ ਫਿਲਰ ਸ਼ਬਦਾਂ ਜਾਂ ਲੰਬੇ ਜਾਣ-ਪਛਾਣ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਬੰਦ ਕਰੋ।
  • ਸਿੱਧੇ ਬਣੋ।
  • JSON ਵਰਗੇ ਸਟ੍ਰਕਚਰਡ ਇਨਪੁੱਟਸ ਦੀ ਵਰਤੋਂ ਕਰੋ।
  • few-shot learning ਲਈ ਘੱਟ ਤੋਂ ਘੱਟ ਉਦਾਹਰਣਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ।
  • ਆਪਣੇ ਸਹੀ ਆਊਟਪੁੱਟ ਫਾਰਮੈਟ ਨੂੰ ਸਪਸ਼ਟ ਕਰੋ। ਮੈਂ ਸਿਰਫ਼ ਆਪਣੇ ਪ੍ਰੋਂਪਟਸ ਨੂੰ ਛੋਟਾ ਕਰਕੇ ਟੋਕਨਾਂ 'ਤੇ 30% ਦੀ ਬਚਤ ਕੀਤੀ।
  1. ਸਹੀ ਮਾਡਲ ਚੁਣੋ ਕਰਿਆਨੇ ਦੀ ਦੁਕਾਨ 'ਤੇ ਜਾਣ ਲਈ ਫੇਰਾਰੀ ਦੀ ਵਰਤੋਂ ਨਾ ਕਰੋ। ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਲਈ GPT-4 ਵਰਗੇ ਵੱਡੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਸਧਾਰਨ classification ਜਾਂ extraction ਲਈ Gemini Flash ਜਾਂ Llama 3 ਵਰਗੇ ਛੋਟੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਛੋਟੇ ਮਾਡਲ ਅਕਸਰ 1/10ਵੀਂ ਕੀਮਤ ਦੇ ਹੁੰਦੇ ਹਨ ਅਤੇ ਬਹੁਤ ਤੇਜ਼ ਹੁੰਦੇ ਹਨ।

  2. ਕੈਸ਼ਿੰਗ (caching) ਲਾਗੂ ਕਰੋ ਇੱਕੋ ਸਵਾਲ ਦੋ ਵਾਰ ਨਾ ਪੁੱਛੋ। ਜੇਕਰ ਤੁਹਾਨੂੰ ਇੱਕੋ ਜਿਹੇ ਜਾਂ ਸਮਾਨ ਪ੍ਰੋਂਪਟ ਮਿਲਦੇ ਹਨ, ਤਾਂ Redis ਵਰਗੇ ਕੈਸ਼ ਤੋਂ ਜਵਾਬ ਦਿਓ। ਮੈਂ ਇਸ ਤਰੀਕੇ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ ਰੋਜ਼ਾਨਾ AI ਕਾਲਸ ਨੂੰ 15,000 ਤੋਂ ਘਟਾ ਕੇ 8,000 ਕਰ ਦਿੱਤਾ।

  3. RAG ਆਰਕੀਟੈਕਚਰ ਦੀ ਵਰਤੋਂ ਕਰੋ ਪੂਰੇ ਦਸਤਾਵੇਜ਼ AI ਨੂੰ ਨਾ ਭੇਜੋ। Retrieval-Augmented Generation (RAG) ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇਹ ਤਰੀਕਾ ਤੁਹਾਡੇ ਡੇਟਾ ਦੇ ਸਿਰਫ਼ ਖਾਸ ਅਤੇ ਪ੍ਰਸੰਗਿਕ ਹਿੱਸੇ ਹੀ ਮਾਡਲ ਨੂੰ ਭੇਜਦਾ ਹੈ। ਮੈਂ ਆਪਣੇ ਡੇਟਾ ਪਲੇਟਫਾਰਮ ਵਿੱਚ RAG ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਟੋਕਨ ਦੀ ਖਪਤ ਨੂੰ 60% ਤੱਕ ਘਟਾ ਦਿੱਤਾ।

  4. ਮਲਟੀ-ਏਜੰਟ ਫਲੋਜ਼ (multi-agent flows) ਨੂੰ ਆਪਟੀਮਾਈਜ਼ ਕਰੋ ਮਲਟੀ-ਏਜੰਟ ਸਿਸਟਮਾਂ ਵਿੱਚ, ਏਜੰਟ ਲਗਾਤਾਰ ਇੱਕ ਦੂਜੇ ਨਾਲ ਗੱਲ ਕਰਦੇ ਹਨ। ਇਹ ਮਹਿੰਗਾ ਹੋ ਜਾਂਦਾ ਹੈ।

  • ਇੱਕ early exit strategy ਦੀ ਵਰਤੋਂ ਕਰੋ।
  • ਜੇਕਰ ਕੋਈ ਏਜੰਟ ਸਧਾਰਨ ਲੌਜਿਕ ਨਾਲ ਕਿਸੇ ਕੰਮ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦਾ ਹੈ, ਤਾਂ LLM ਨੂੰ ਕਾਲ ਨਾ ਕਰੋ।
  • ਸਧਾਰਨ ਫੈਸਲਿਆਂ ਲਈ rule-based ਸਿਸਟਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਮੈਂ ਇੱਕ ਕਲਾਇੰਟ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਸਧਾਰਨ ਸਟਾਕ ਚੈੱਕ ਲਈ AI ਦੀ ਬਜਾਏ ਸਿੱਧੀਆਂ database queries ਦੀ ਵਰਤੋਂ ਕਰਕੇ LLM ਕਾਲਸ ਨੂੰ 70% ਤੱਕ ਘਟਾ ਦਿੱਤਾ।
  1. ਕੁਸ਼ਲ ਡੇਟਾ ਫਾਰਮੈਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ ਫਾਰਮੈਟ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ। XML, JSON ਦੇ ਮੁਕਾਬਲੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਟੋਕਨ ਵਰਤਦਾ ਹੈ।
  • XML ਦੀ ਬਜਾਏ JSON ਨੂੰ ਤਰਜੀਹ ਦਿਓ।
  • ਘੱਟ ਤੋਂ ਘੱਟ nesting ਦੀ ਵਰਤੋਂ ਕਰੋ।
  • ਵਾਧੂ ਸਪੇਸ ਅਤੇ ਕੁਮੈਂਟਸ ਨੂੰ ਹਟਾ ਦਿਓ।
  • "product_id" ਦੀ ਬਜਾਏ "id" ਵਰਗੀਆਂ ਛੋਟੀਆਂ keys ਦੀ ਵਰਤੋਂ ਕਰੋ। XML ਤੋਂ JSON 'ਤੇ ਜਾਣ ਨਾਲ ਮੇਰੇ ਆਊਟਪੁੱਟ ਟੋਕਨਾਂ ਵਿੱਚ 25% ਦੀ ਬਚਤ ਹੋਈ।
  1. ਮਲਟੀ-ਪ੍ਰੋਵਾਈਡਰ ਰਣਨੀਤੀ ਦੀ ਵਰਤੋਂ ਕਰੋ ਸਿਰਫ਼ ਇੱਕ ਪ੍ਰੋਵਾਈਡਰ 'ਤੇ ਨਿਰਭਰ ਨਾ ਰਹੋ। ਕੰਮ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਮਾਡਲ ਨੂੰ ਭੇਜਣ ਲਈ ਇੱਕ router ਦੀ ਵਰਤੋਂ ਕਰੋ। ਸਧਾਰਨ ਕੰਮ Groq ਜਾਂ Cerebras ਵਰਗੇ ਸਸਤੇ ਪ੍ਰੋਵਾਈਡਰਾਂ ਨੂੰ ਭੇਜੋ। ਗੁੰਝਲਦਾਰ ਕੰਮ high-end ਮਾਡਲਾਂ ਨੂੰ ਭੇਜੋ। ਇਹ ਲਾਗਤਾਂ ਨੂੰ ਘੱਟ ਰੱਖਦਾ ਹੈ ਅਤੇ ਸਿਸਟਮਾਂ ਨੂੰ resilient ਬਣਾਉਂਦਾ ਹੈ।

Source: https://dev.to/merbayerp/7-ways-to-reduce-your-ai-bill-smart-strategies-21hc

Optional learning community: https://t.me/GyaanSetuAi