𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀 𝗗𝗿𝗶𝘃𝗲 𝗛𝗶𝗱𝗱𝗲𝗻 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲 𝗖𝗼𝘀𝘁𝘀

Translated for your language. Read the original.

AI-assisted draft.

𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀 ਲੁਕਵੇਂ ਇਨਫਰੈਂਸ (Inference) ਖਰਚਿਆਂ ਦਾ ਕਾਰਨ ਬਣ ਰਹੇ ਹਨ

Thinking tokens AI ਡਿਵੈਲਪਰਾਂ ਲਈ ਇੱਕ ਲੁਕਵਾਂ ਟੈਕਸ ਬਣਾਉਂਦੇ ਹਨ।

OpenAI, Anthropic, ਅਤੇ Google thinking tokens ਲਈ output ਰੇਟਾਂ 'ਤੇ ਚਾਰਜ ਕਰਦੇ ਹਨ। ਇਹ agentic pipelines ਵਿੱਚ ਖਰਚਿਆਂ ਨੂੰ 5 ਗੁਣਾ ਤੋਂ 10 ਗੁਣਾ ਤੱਕ ਵਧਾ ਦਿੰਦਾ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਡਿਵੈਲਪਰ ਮੰਨਦੇ ਹਨ ਕਿ ਇਹ tokens ਮੁਫ਼ਤ ਜਾਂ ਸਸਤੇ ਹਨ। ਪਰ ਅਜਿਹਾ ਨਹੀਂ ਹੈ।

Agentic pipelines ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੋਰ ਵੀ ਗੰਭੀਰ ਬਣਾ ਦਿੰਦੀਆਂ ਹਨ। Agents ਅਕਸਰ ਅਸਫਲ ਕਦਮਾਂ ਨੂੰ ਦੁਬਾਰਾ ਕੋਸ਼ਿਸ਼ (retry) ਕਰਦੇ ਹਨ। ਹਰ retry ਨਾਲ ਸੈਂਕੜੇ ਨਵੇਂ thinking tokens ਪੈਦਾ ਹੁੰਦੇ ਹਨ। Perceive, reason, act, ਅਤੇ observe ਦਾ ਇੱਕ ਸਿੰਗਲ ਲੂਪ ਕਈ ਵਾਰ retry ਕਰਵਾ ਸਕਦਾ ਹੈ।

ਤੁਹਾਡੇ ਮਾਰਜਿਨ (margins) ਲਈ ਇਹ ਗਣਿਤ ਖ਼ਤਰਨਾਕ ਹੈ: • 3 ਤੋਂ 5 retries ਵਾਲੇ ਇੱਕ ਟਾਸਕ ਦੀ ਲੁਕਵੇਂ tokens ਵਿੱਚ $0.10 ਤੋਂ $0.50 ਤੱਕ ਲਾਗਤ ਆਉਂਦੀ ਹੈ। • ਪ੍ਰਤੀ ਦਿਨ 10,000 ਟਾਸਕਾਂ ਵਾਲੀ ਇੱਕ pipeline ਵਿੱਚ ਵਾਧੂ ਫੀਸ ਵਜੋਂ $5,000 ਤੋਂ $25,000 ਤੱਕ ਦਾ ਖਰਚਾ ਆ ਸਕਦਾ ਹੈ। • APIs 'ਤੇ $10,000 ਖਰਚਣ ਵਾਲਾ ਇੱਕ startup ਸਿਰਫ਼ thinking tokens ਲਈ ਹੀ $5,000 ਦੇ ਸਕਦਾ ਹੈ।

ਇੱਕ ਵੱਡੀ ਕੀਮਤ ਦੀ ਜੰਗ (price war) ਸ਼ੁਰੂ ਹੋ ਰਹੀ ਹੈ। Google Gemini reasoning model ਦੀਆਂ ਕੀਮਤਾਂ ਵਿੱਚ 80% ਦੀ ਕਟੌਤੀ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਿਹਾ ਹੈ। ਇਹ ਟੈਕ ਦਿੱਗਜਾਂ (tech giants) ਅਤੇ startups ਵਿਚਕਾਰਲੇ ਪਾੜੇ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। Google tokens 'ਤੇ ਪੈਸਾ ਗਵਾਉਣ ਦਾ ਸਮਰੱਥ ਹੈ ਕਿਉਂਕਿ ਉਹ compute 'ਤੇ ਅਰਬਾਂ ਖਰਚ ਕਰਦੇ ਹਨ। Startups ਅਜਿਹਾ ਨਹੀਂ ਕਰ ਸਕਦੇ।

ਇਹ ਅਸਮਾਨਤਾ (asymmetry) ਵੱਡੇ ਪ੍ਰਦਾਤਾਵਾਂ ਦੇ ਪੱਖ ਵਿੱਚ ਹੈ। ਛੋਟੀਆਂ ਕੰਪਨੀਆਂ ਇਹਨਾਂ ਖਰਚਿਆਂ ਨੂੰ ਸਹਿਣ ਲਈ ਸੰਘਰਸ਼ ਕਰ ਰਹੀਆਂ ਹਨ। ਇੱਥੋਂ ਤੱਕ ਕਿ Microsoft ਵੀ usage-based pricing ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ ਅਤੇ ਖਰਚਿਆਂ ਨੂੰ ਸੰਭਾਲਣ ਲਈ DeepSeek V4 ਵਰਗੇ ਸਸਤੇ ਵਿਕਲਪਾਂ ਦੀ ਭਾਲ ਕਰ ਰਿਹਾ ਹੈ।

ਦੋ ਚੀਜ਼ਾਂ 'ਤੇ ਨਜ਼ਰ ਰੱਖੋ: • Q3 2026 ਵਿੱਚ Google ਦੀ ਅਧਿਕਾਰਤ Gemini pricing। • Thinking tokens ਲਈ tiered pricing 'ਤੇ OpenAI ਦਾ ਪ੍ਰਤੀਕਰਮ।

ਹੁਣੇ ਆਪਣੇ token ਦੀ ਵਰਤੋਂ ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰੋ ਜਾਂ ਆਪਣੇ ਮਾਰਜਿਨ ਨੂੰ ਗਾਇਬ ਹੁੰਦੇ ਦੇਖੋ।

Source: https://pub.towardsai.net

Optional learning community: https://t.me/GyaanSetuAi

𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀 𝗗𝗿𝗶𝘃𝗲 𝗛𝗶𝗱𝗱𝗲𝗻 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲 𝗖𝗼𝘀𝘁𝘀

Continue reading

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

𝗠𝗖𝗣 𝗗𝗶𝗿𝘁𝘆 𝗦𝗲𝗰𝗿𝗲𝘁: 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗜𝘀 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅

𝗧𝗵𝗲 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻 𝗧𝗮𝘅: 𝗧𝗵𝗲 $𝟲𝟳 𝗕𝗶𝗹𝗹𝗶𝗼𝗻 𝗛𝗶𝗱𝗱𝗲𝗻 𝗖𝗼𝘀𝘁

𝗧𝗵𝗲 𝗥𝗲𝗮𝗹 𝗖𝗼𝘀𝘁 𝗼𝗳 𝗔𝗜 𝗔𝗣𝗜𝘀