ਮੈਂ ਇੱਕ ਵੀਕੈਂਡ ਵਿੱਚ ਆਪਣੇ AI Agent ਦਾ ਟੋਕਨ ਬਿੱਲ 62% ਘਟਾ ਦਿੱਤਾ

ਮੇਰੇ AI agent ਦੀ ਲਾਗਤ $5.40 ਪ੍ਰਤੀ ਟਾਸਕ ਸੀ। ਮੈਂ ਇੱਕ ਵੀਕੈਂਡ ਵਿੱਚ ਇਸ ਲਾਗਤ ਨੂੰ ਘਟਾ ਕੇ $2.05 ਪ੍ਰਤੀ ਟਾਸਕ ਕਰ ਦਿੱਤਾ। ਮੈਂ ਗੁਣਵੱਤਾ (quality) ਨੂੰ ਬਿਨਾਂ ਘਟਾਏ ਇਹ 62% ਦੀ ਕਮੀ ਹਾਸਲ ਕੀਤੀ।

ਮੈਂ ਇਹ ਕਿਵੇਂ ਕੀਤਾ, ਇੱਥੇ ਦੇਖੋ।

ਸਮੱਸਿਆ: ਮੇਰਾ agent ਇੱਕ ਰਿਸਰਚ ਲੂਪ ਚਲਾਉਂਦਾ ਹੈ। ਇਹ ਵੈੱਬ 'ਤੇ ਸਰਚ ਕਰਦਾ ਹੈ, ਪੇਜ ਸਕ੍ਰੈਪ (scrape) ਕਰਦਾ ਹੈ ਅਤੇ ਸਾਰ (summaries) ਲਿਖਦਾ ਹੈ। ਇਹ ਤਿੰਨ ਤਰੀਕਿਆਂ ਨਾਲ ਟੋਕਨ ਖ਼ਰਚ ਕਰ ਰਿਹਾ ਸੀ:

  • Context stuffing: ਮੈਂ ਮਾਡਲ ਨੂੰ ਪੂਰੇ 50,000 ਅੱਖਰਾਂ ਵਾਲੇ ਪੇਜ ਭੇਜ ਰਿਹਾ ਸੀ। ਮੈਨੂੰ ਸਿਰਫ਼ 2,000 ਅੱਖਰਾਂ ਦੀ ਲੋੜ ਸੀ। ਮੈਂ ਇੱਕ ਸੂਈ ਲੱਭਣ ਲਈ ਪੂਰੇ ਘਾਹ ਦੇ ਢੇਰ ਲਈ ਪੈਸੇ ਦੇ ਰਹੇ ਸੀ।
  • Verbose prompts: ਮੇਰੇ system prompts ਇੱਕੋ ਹਦਾਇਤਾਂ ਨੂੰ ਤਿੰਨ ਵਾਰ ਦੁਹਰਾਉਂਦੇ ਸਨ। ਮੈਂ ਹਰ ਵਾਰ ਮਾਡਲ ਨੂੰ ਆਪਣੇ ਹੀ ਸ਼ਬਦ ਦੁਬਾਰਾ ਪੜ੍ਹਨ ਲਈ ਪੈਸੇ ਦੇ ਰਿਹਾ ਸੀ।
  • ਮਹਿੰਗੇ ਮਾਡਲਾਂ ਦੀ ਜ਼ਿਆਦਾ ਵਰਤੋਂ: ਮੈਂ ਇੱਕ ਸਿੰਗਲ ਪੈਰਾਗ੍ਰਾਫ ਦਾ ਸਾਰ ਲਿਖਣ ਵਰਗੇ ਸਧਾਰਨ ਕੰਮਾਂ ਲਈ ਵੀ high-tier reasoning models ਦੀ ਵਰਤੋਂ ਕਰ ਰਿਹਾ ਸੀ।

ਹੱਲ:

1. ਭੇਜਣ ਤੋਂ ਪਹਿਲਾਂ ਫਿਲਟਰ ਕਰੋ ਪੂਰੇ ਪੇਜ ਭੇਜਣ ਦੀ ਬਜਾਏ, ਹੁਣ ਮੈਂ ਟੈਕਸਟ ਨੂੰ ਚੰਕਸ (chunks) ਵਿੱਚ ਵੰਡ ਦਿੰਦਾ ਹਾਂ। ਮੈਂ ਪਹਿਲਾਂ ਸਬੰਧਤ ਹਿੱਸੇ ਲੱਭਦਾ ਹਾਂ। ਫਿਰ ਮੈਂ ਮਾਡਲ ਨੂੰ ਸਿਰਫ਼ ਉਹ ਹਿੱਸੇ ਹੀ ਭੇਜਦਾ ਹਾਂ। ਇਸ ਨਾਲ ਪ੍ਰਤੀ ਪੇਜ input tokens 12,500 ਤੋਂ ਘਟ ਕੇ 3,200 ਰਹਿ ਗਏ।

2. System prompt ਨੂੰ ਛੋਟਾ ਕਰੋ ਮੈਂ ਵਾਧੂ ਹਦਾਇਤਾਂ ਨੂੰ ਹਟਾ ਦਿੱਤਾ। ਮੈਂ ਉਹ ਟੂਲ ਡਿਸਕ੍ਰਿਪਸ਼ਨਾਂ ਹਟਾ ਦਿੱਤੀਆਂ ਜੋ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਜਾਣਦਾ ਹੈ। ਮੈਂ "think step-by-step" ਵਰਗੇ ਬੋਇਲਰਪਲੇਟ (boilerplate) ਸ਼ਬਦਾਂ ਦੀ ਵਰਤੋਂ ਬੰਦ ਕਰ ਦਿੱਤੀ ਕਿਉਂਕਿ ਆਧੁਨਿਕ ਮਾਡਲ ਇਹ ਕੰਮ ਆਪਣੇ ਆਪ ਕਰ ਲੈਂਦੇ ਹਨ।

3. Tiered model routing ਮੈਂ ਹਰ ਕੰਮ ਲਈ ਇੱਕੋ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਬੰਦ ਕਰ ਦਿੱਤਾ। ਮੈਂ ਟਾਸਕਾਂ ਨੂੰ ਤਿੰਨ ਪੱਧਰਾਂ ਵਿੱਚ ਵੰਡ ਦਿੱਤਾ:

  • Extraction: ਇੱਕ ਸਸਤਾ, ਛੋਟਾ ਮਾਡਲ ਵਰਤੋ।
  • Synthesis: ਇੱਕ high-tier reasoning ਮਾਡਲ ਵਰਤੋ।
  • Formatting: ਇੱਕ ਸਸਤਾ, ਛੋਟਾ ਮਾਡਲ ਵਰਤੋ।

50-ਟਾਸਕ ਟੈਸਟ ਦੇ ਨਤੀਜੇ:

  • ਪ੍ਰਤੀ ਟਾਸਕ ਲਾਗਤ: $5.40 ਤੋਂ $2.05
  • Latency: 41s ਤੋਂ 28s
  • Citation coverage: 67% ਤੋਂ 89%

Agent ਜ਼ਿਆਦਾ ਸਮਝਦਾਰ ਨਹੀਂ ਹੋਇਆ ਹੈ। ਪਾਈਪਲਾਈਨ (pipeline) ਬਸ ਵਧੇਰੇ ਕੁਸ਼ਲ (efficient) ਹੋ ਗਈ ਹੈ।

ਤੁਹਾਡੇ production agents ਲਈ ਤਿੰਨ ਸਬਕ:

  • ਇੱਕ ਸਖ਼ਤ ਟੋਕਨ ਬਜਟ ਸੈੱਟ ਕਰੋ। ਜੇਕਰ ਇਹ ਤੁਹਾਡੀ ਸੀਮਾ ਤੋਂ ਵੱਧ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਟਾਸਕ ਨੂੰ ਰੋਕ ਦਿਓ।
  • ਆਪਣੇ ਨਤੀਜਿਆਂ ਨੂੰ ਕੈਸ਼ (cache) ਕਰੋ। ਇੱਕੋ URL ਨੂੰ ਦੋ ਵਾਰ ਸਕ੍ਰੈਪ ਨਾ ਕਰੋ।
  • ਸਭ ਕੁਝ ਲੌਗ (log) ਕਰੋ। ਤੁਹਾਨੂੰ ਪਤਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਕਿਹੜਾ ਕਦਮ ਸਭ ਤੋਂ ਵੱਧ ਪੈਸਾ ਖ਼ਰਚ ਕਰ ਰਿਹਾ ਹੈ।

ਜਦੋਂ ਗੁਣਵੱਤਾ ਘਟਦੀ ਹੈ ਤਾਂ ਵੱਡੇ ਮਾਡਲਾਂ ਵੱਲ ਭੱਜਣਾ ਬੰਦ ਕਰੋ। ਸਖ਼ਤ ਕੰਟੈਕਸ (tighter context) ਵਾਲੇ ਛੋਟੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰੋ।

ਸਰੋਤ: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi