ਮੈਂ ਇੱਕ ਵੀਕੈਂਡ ਵਿੱਚ ਆਪਣੇ AI ਏਜੰਟ ਦਾ ਟੋਕਨ ਬਿੱਲ 62% ਘਟਾ ਦਿੱਤਾ

Translated for your language. Read the original.

AI-assisted draft.

yesterday2min read

ਮੈਂ ਇੱਕ ਵੀਕੈਂਡ ਵਿੱਚ ਆਪਣੇ AI Agent ਦਾ ਟੋਕਨ ਬਿੱਲ 62% ਘਟਾ ਦਿੱਤਾ

ਮੇਰੇ AI agent ਦੀ ਲਾਗਤ $5.40 ਪ੍ਰਤੀ ਟਾਸਕ ਸੀ। ਮੈਂ ਇੱਕ ਵੀਕੈਂਡ ਵਿੱਚ ਇਸ ਲਾਗਤ ਨੂੰ ਘਟਾ ਕੇ $2.05 ਪ੍ਰਤੀ ਟਾਸਕ ਕਰ ਦਿੱਤਾ। ਮੈਂ ਗੁਣਵੱਤਾ (quality) ਨੂੰ ਬਿਨਾਂ ਘਟਾਏ ਇਹ 62% ਦੀ ਕਮੀ ਹਾਸਲ ਕੀਤੀ।

ਮੈਂ ਇਹ ਕਿਵੇਂ ਕੀਤਾ, ਇੱਥੇ ਦੇਖੋ।

ਸਮੱਸਿਆ: ਮੇਰਾ agent ਇੱਕ ਰਿਸਰਚ ਲੂਪ ਚਲਾਉਂਦਾ ਹੈ। ਇਹ ਵੈੱਬ 'ਤੇ ਸਰਚ ਕਰਦਾ ਹੈ, ਪੇਜ ਸਕ੍ਰੈਪ (scrape) ਕਰਦਾ ਹੈ ਅਤੇ ਸਾਰ (summaries) ਲਿਖਦਾ ਹੈ। ਇਹ ਤਿੰਨ ਤਰੀਕਿਆਂ ਨਾਲ ਟੋਕਨ ਖ਼ਰਚ ਕਰ ਰਿਹਾ ਸੀ:

Context stuffing: ਮੈਂ ਮਾਡਲ ਨੂੰ ਪੂਰੇ 50,000 ਅੱਖਰਾਂ ਵਾਲੇ ਪੇਜ ਭੇਜ ਰਿਹਾ ਸੀ। ਮੈਨੂੰ ਸਿਰਫ਼ 2,000 ਅੱਖਰਾਂ ਦੀ ਲੋੜ ਸੀ। ਮੈਂ ਇੱਕ ਸੂਈ ਲੱਭਣ ਲਈ ਪੂਰੇ ਘਾਹ ਦੇ ਢੇਰ ਲਈ ਪੈਸੇ ਦੇ ਰਹੇ ਸੀ।
Verbose prompts: ਮੇਰੇ system prompts ਇੱਕੋ ਹਦਾਇਤਾਂ ਨੂੰ ਤਿੰਨ ਵਾਰ ਦੁਹਰਾਉਂਦੇ ਸਨ। ਮੈਂ ਹਰ ਵਾਰ ਮਾਡਲ ਨੂੰ ਆਪਣੇ ਹੀ ਸ਼ਬਦ ਦੁਬਾਰਾ ਪੜ੍ਹਨ ਲਈ ਪੈਸੇ ਦੇ ਰਿਹਾ ਸੀ।
ਮਹਿੰਗੇ ਮਾਡਲਾਂ ਦੀ ਜ਼ਿਆਦਾ ਵਰਤੋਂ: ਮੈਂ ਇੱਕ ਸਿੰਗਲ ਪੈਰਾਗ੍ਰਾਫ ਦਾ ਸਾਰ ਲਿਖਣ ਵਰਗੇ ਸਧਾਰਨ ਕੰਮਾਂ ਲਈ ਵੀ high-tier reasoning models ਦੀ ਵਰਤੋਂ ਕਰ ਰਿਹਾ ਸੀ।

ਹੱਲ:

1. ਭੇਜਣ ਤੋਂ ਪਹਿਲਾਂ ਫਿਲਟਰ ਕਰੋ ਪੂਰੇ ਪੇਜ ਭੇਜਣ ਦੀ ਬਜਾਏ, ਹੁਣ ਮੈਂ ਟੈਕਸਟ ਨੂੰ ਚੰਕਸ (chunks) ਵਿੱਚ ਵੰਡ ਦਿੰਦਾ ਹਾਂ। ਮੈਂ ਪਹਿਲਾਂ ਸਬੰਧਤ ਹਿੱਸੇ ਲੱਭਦਾ ਹਾਂ। ਫਿਰ ਮੈਂ ਮਾਡਲ ਨੂੰ ਸਿਰਫ਼ ਉਹ ਹਿੱਸੇ ਹੀ ਭੇਜਦਾ ਹਾਂ। ਇਸ ਨਾਲ ਪ੍ਰਤੀ ਪੇਜ input tokens 12,500 ਤੋਂ ਘਟ ਕੇ 3,200 ਰਹਿ ਗਏ।

2. System prompt ਨੂੰ ਛੋਟਾ ਕਰੋ ਮੈਂ ਵਾਧੂ ਹਦਾਇਤਾਂ ਨੂੰ ਹਟਾ ਦਿੱਤਾ। ਮੈਂ ਉਹ ਟੂਲ ਡਿਸਕ੍ਰਿਪਸ਼ਨਾਂ ਹਟਾ ਦਿੱਤੀਆਂ ਜੋ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਜਾਣਦਾ ਹੈ। ਮੈਂ "think step-by-step" ਵਰਗੇ ਬੋਇਲਰਪਲੇਟ (boilerplate) ਸ਼ਬਦਾਂ ਦੀ ਵਰਤੋਂ ਬੰਦ ਕਰ ਦਿੱਤੀ ਕਿਉਂਕਿ ਆਧੁਨਿਕ ਮਾਡਲ ਇਹ ਕੰਮ ਆਪਣੇ ਆਪ ਕਰ ਲੈਂਦੇ ਹਨ।

3. Tiered model routing ਮੈਂ ਹਰ ਕੰਮ ਲਈ ਇੱਕੋ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਬੰਦ ਕਰ ਦਿੱਤਾ। ਮੈਂ ਟਾਸਕਾਂ ਨੂੰ ਤਿੰਨ ਪੱਧਰਾਂ ਵਿੱਚ ਵੰਡ ਦਿੱਤਾ:

Extraction: ਇੱਕ ਸਸਤਾ, ਛੋਟਾ ਮਾਡਲ ਵਰਤੋ।
Synthesis: ਇੱਕ high-tier reasoning ਮਾਡਲ ਵਰਤੋ।
Formatting: ਇੱਕ ਸਸਤਾ, ਛੋਟਾ ਮਾਡਲ ਵਰਤੋ।

50-ਟਾਸਕ ਟੈਸਟ ਦੇ ਨਤੀਜੇ:

ਪ੍ਰਤੀ ਟਾਸਕ ਲਾਗਤ: $5.40 ਤੋਂ $2.05
Latency: 41s ਤੋਂ 28s
Citation coverage: 67% ਤੋਂ 89%

Agent ਜ਼ਿਆਦਾ ਸਮਝਦਾਰ ਨਹੀਂ ਹੋਇਆ ਹੈ। ਪਾਈਪਲਾਈਨ (pipeline) ਬਸ ਵਧੇਰੇ ਕੁਸ਼ਲ (efficient) ਹੋ ਗਈ ਹੈ।

ਤੁਹਾਡੇ production agents ਲਈ ਤਿੰਨ ਸਬਕ:

ਇੱਕ ਸਖ਼ਤ ਟੋਕਨ ਬਜਟ ਸੈੱਟ ਕਰੋ। ਜੇਕਰ ਇਹ ਤੁਹਾਡੀ ਸੀਮਾ ਤੋਂ ਵੱਧ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਟਾਸਕ ਨੂੰ ਰੋਕ ਦਿਓ।
ਆਪਣੇ ਨਤੀਜਿਆਂ ਨੂੰ ਕੈਸ਼ (cache) ਕਰੋ। ਇੱਕੋ URL ਨੂੰ ਦੋ ਵਾਰ ਸਕ੍ਰੈਪ ਨਾ ਕਰੋ।
ਸਭ ਕੁਝ ਲੌਗ (log) ਕਰੋ। ਤੁਹਾਨੂੰ ਪਤਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਕਿਹੜਾ ਕਦਮ ਸਭ ਤੋਂ ਵੱਧ ਪੈਸਾ ਖ਼ਰਚ ਕਰ ਰਿਹਾ ਹੈ।

ਜਦੋਂ ਗੁਣਵੱਤਾ ਘਟਦੀ ਹੈ ਤਾਂ ਵੱਡੇ ਮਾਡਲਾਂ ਵੱਲ ਭੱਜਣਾ ਬੰਦ ਕਰੋ। ਸਖ਼ਤ ਕੰਟੈਕਸ (tighter context) ਵਾਲੇ ਛੋਟੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰੋ।

ਸਰੋਤ: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

ਮੈਂ ਇੱਕ ਵੀਕੈਂਡ ਵਿੱਚ ਆਪਣੇ AI ਏਜੰਟ ਦਾ ਟੋਕਨ ਬਿੱਲ 62% ਘਟਾ ਦਿੱਤਾ

Continue reading

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹