𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀 ਲੁਕਵੇਂ ਇਨਫਰੈਂਸ (Inference) ਖਰਚਿਆਂ ਦਾ ਕਾਰਨ ਬਣ ਰਹੇ ਹਨ
Thinking tokens AI ਡਿਵੈਲਪਰਾਂ ਲਈ ਇੱਕ ਲੁਕਵਾਂ ਟੈਕਸ ਬਣਾਉਂਦੇ ਹਨ।
OpenAI, Anthropic, ਅਤੇ Google thinking tokens ਲਈ output ਰੇਟਾਂ 'ਤੇ ਚਾਰਜ ਕਰਦੇ ਹਨ। ਇਹ agentic pipelines ਵਿੱਚ ਖਰਚਿਆਂ ਨੂੰ 5 ਗੁਣਾ ਤੋਂ 10 ਗੁਣਾ ਤੱਕ ਵਧਾ ਦਿੰਦਾ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਡਿਵੈਲਪਰ ਮੰਨਦੇ ਹਨ ਕਿ ਇਹ tokens ਮੁਫ਼ਤ ਜਾਂ ਸਸਤੇ ਹਨ। ਪਰ ਅਜਿਹਾ ਨਹੀਂ ਹੈ।
Agentic pipelines ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੋਰ ਵੀ ਗੰਭੀਰ ਬਣਾ ਦਿੰਦੀਆਂ ਹਨ। Agents ਅਕਸਰ ਅਸਫਲ ਕਦਮਾਂ ਨੂੰ ਦੁਬਾਰਾ ਕੋਸ਼ਿਸ਼ (retry) ਕਰਦੇ ਹਨ। ਹਰ retry ਨਾਲ ਸੈਂਕੜੇ ਨਵੇਂ thinking tokens ਪੈਦਾ ਹੁੰਦੇ ਹਨ। Perceive, reason, act, ਅਤੇ observe ਦਾ ਇੱਕ ਸਿੰਗਲ ਲੂਪ ਕਈ ਵਾਰ retry ਕਰਵਾ ਸਕਦਾ ਹੈ।
ਤੁਹਾਡੇ ਮਾਰਜਿਨ (margins) ਲਈ ਇਹ ਗਣਿਤ ਖ਼ਤਰਨਾਕ ਹੈ: • 3 ਤੋਂ 5 retries ਵਾਲੇ ਇੱਕ ਟਾਸਕ ਦੀ ਲੁਕਵੇਂ tokens ਵਿੱਚ $0.10 ਤੋਂ $0.50 ਤੱਕ ਲਾਗਤ ਆਉਂਦੀ ਹੈ। • ਪ੍ਰਤੀ ਦਿਨ 10,000 ਟਾਸਕਾਂ ਵਾਲੀ ਇੱਕ pipeline ਵਿੱਚ ਵਾਧੂ ਫੀਸ ਵਜੋਂ $5,000 ਤੋਂ $25,000 ਤੱਕ ਦਾ ਖਰਚਾ ਆ ਸਕਦਾ ਹੈ। • APIs 'ਤੇ $10,000 ਖਰਚਣ ਵਾਲਾ ਇੱਕ startup ਸਿਰਫ਼ thinking tokens ਲਈ ਹੀ $5,000 ਦੇ ਸਕਦਾ ਹੈ।
ਇੱਕ ਵੱਡੀ ਕੀਮਤ ਦੀ ਜੰਗ (price war) ਸ਼ੁਰੂ ਹੋ ਰਹੀ ਹੈ। Google Gemini reasoning model ਦੀਆਂ ਕੀਮਤਾਂ ਵਿੱਚ 80% ਦੀ ਕਟੌਤੀ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਿਹਾ ਹੈ। ਇਹ ਟੈਕ ਦਿੱਗਜਾਂ (tech giants) ਅਤੇ startups ਵਿਚਕਾਰਲੇ ਪਾੜੇ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। Google tokens 'ਤੇ ਪੈਸਾ ਗਵਾਉਣ ਦਾ ਸਮਰੱਥ ਹੈ ਕਿਉਂਕਿ ਉਹ compute 'ਤੇ ਅਰਬਾਂ ਖਰਚ ਕਰਦੇ ਹਨ। Startups ਅਜਿਹਾ ਨਹੀਂ ਕਰ ਸਕਦੇ।
ਇਹ ਅਸਮਾਨਤਾ (asymmetry) ਵੱਡੇ ਪ੍ਰਦਾਤਾਵਾਂ ਦੇ ਪੱਖ ਵਿੱਚ ਹੈ। ਛੋਟੀਆਂ ਕੰਪਨੀਆਂ ਇਹਨਾਂ ਖਰਚਿਆਂ ਨੂੰ ਸਹਿਣ ਲਈ ਸੰਘਰਸ਼ ਕਰ ਰਹੀਆਂ ਹਨ। ਇੱਥੋਂ ਤੱਕ ਕਿ Microsoft ਵੀ usage-based pricing ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ ਅਤੇ ਖਰਚਿਆਂ ਨੂੰ ਸੰਭਾਲਣ ਲਈ DeepSeek V4 ਵਰਗੇ ਸਸਤੇ ਵਿਕਲਪਾਂ ਦੀ ਭਾਲ ਕਰ ਰਿਹਾ ਹੈ।
ਦੋ ਚੀਜ਼ਾਂ 'ਤੇ ਨਜ਼ਰ ਰੱਖੋ: • Q3 2026 ਵਿੱਚ Google ਦੀ ਅਧਿਕਾਰਤ Gemini pricing। • Thinking tokens ਲਈ tiered pricing 'ਤੇ OpenAI ਦਾ ਪ੍ਰਤੀਕਰਮ।
ਹੁਣੇ ਆਪਣੇ token ਦੀ ਵਰਤੋਂ ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰੋ ਜਾਂ ਆਪਣੇ ਮਾਰਜਿਨ ਨੂੰ ਗਾਇਬ ਹੁੰਦੇ ਦੇਖੋ।
Source: https://pub.towardsai.net
Optional learning community: https://t.me/GyaanSetuAi