OpenAI Slashes ChatGPT Inference Costs by Over 50% for Guest Users

Translated for your language. Read the original.

AI-assisted draft.

OpenAI Slashes ChatGPT Inference Costs by Over 50% for Guest Users

In this article

OpenAI ਨੇ ਗੈਸਟ ਯੂਜ਼ਰਾਂ ਲਈ ChatGPT ਇਨਫਰੈਂਸ (Inference) ਲਾਗਤਾਂ ਵਿੱਚ 50% ਤੋਂ ਵੱਧ ਦੀ ਕਟੌਤੀ ਕੀਤੀ ਹੈ

OpenAI ਨੇ ਗੈਸਟ ChatGPT ਯੂਜ਼ਰਾਂ ਲਈ ਇਨਫਰੈਂਸ ਲਾਗਤਾਂ ਵਿੱਚ ਅੱਧੇ ਤੋਂ ਵੱਧ ਦੀ ਕਟੌਤੀ ਕਰਕੇ ਕਾਰਜਸ਼ੀਲ ਕੁਸ਼ਲਤਾ (operational efficiency) ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਸਫਲਤਾ ਹਾਸਲ ਕੀਤੀ ਹੈ। ਮੌਜੂਦਾ AI ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣ ਦੇ ਖਰਚੇ ਵਿੱਚ ਇਹ ਮਹੱਤਵਪੂਰਨ ਕਟੌਤੀ ਵੱਡੇ ਪੱਧਰ 'ਤੇ AI ਤੈਨਾਤੀ (deployment) ਨੂੰ ਵਧੇਰੇ ਟਿਕਾਊ ਬਣਾਉਣ ਵਿੱਚ ਇੱਕ ਅਹਿਮ ਕਦਮ ਹੈ।

ਗੈਸਟ ਅਨੁਭਵ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰਨਾ (Optimizing the Guest Experience)

The Information ਦੀਆਂ ਰਿਪੋਰਟਾਂ ਅਨੁਸਾਰ, OpenAI ਦੇ ਇੰਜੀਨੀਅਰਾਂ ਨੇ ਖਾਸ ਤੌਰ 'ਤੇ ਉਹਨਾਂ ਵਿਜ਼ਿਟਰਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੇ ਹੋਏ ਨਵੇਂ ਅਨੁਕੂਲਨ (optimizations) ਸਫਲਤਾਪੂਰਵਕ ਲਾਗੂ ਕੀਤੇ ਹਨ ਜੋ ਬਿਨਾਂ ਕਿਸੇ ਖਾਤੇ ਦੇ ChatGPT ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਹਾਲਾਂਕਿ ਗੈਸਟ ਯੂਜ਼ਰਾਂ ਕੋਲ Plus ਜਾਂ Team ਸਬਸਕ੍ਰਾਈਬਰਾਂ ਦੇ ਮੁਕਾਬਲੇ ਵਰਤਮਾਨ ਵਿੱਚ ਸੀਮਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਹਨ, ਪਰ ਹਾਰਡਵੇਅਰ ਦੀਆਂ ਲੋੜਾਂ 'ਤੇ ਇਸਦਾ ਪ੍ਰਭਾਵ ਬਹੁਤ ਡੂੰਘਾ ਹੈ।

ਇਹਨਾਂ ਅਨੁਕੂਲਨਾਂ ਰਾਹੀਂ ਪ੍ਰਾਪਤ ਕੀਤੀ ਗਈ ਤਕਨੀਕੀ ਕੁਸ਼ਲਤਾ ਨੇ ਇਹਨਾਂ ਖਾਸ ਯੂਜ਼ਰਾਂ ਦੀ ਸੇਵਾ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ Nvidia GPUs ਦੀ ਗਿਣਤੀ ਨੂੰ ਘਟਾ ਕੇ ਸਿਰਫ਼ ਕੁਝ ਸੌ ਤੱਕ ਕਰ ਦਿੱਤਾ ਹੈ। ਹਾਲਾਂਕਿ ਇਹਨਾਂ ਲਾਭਾਂ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਵਰਤੀ ਗਈ ਸਹੀ ਵਿਧੀ ਗੁਪਤ (proprietary) ਹੈ, ਪਰ ਕਟੌਤੀ ਦਾ ਪੈਮਾਨਾ ਇਹ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ ਕਿ OpenAI ਆਪਣੇ ਕੰਪਿਊਟ-ਭਾਰੀ ਇਨਫਰੈਂਸ ਵਰਕਲੋਡਾਂ ਦਾ ਪ੍ਰਬੰਧਨ ਕਿਵੇਂ ਕਰਦਾ ਹੈ, ਇਸ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਛਾਲ ਲੱਗੀ ਹੈ।

ਇਨਫਰੈਂਸ ਕੁਸ਼ਲਤਾ ਲਈ ਮੁਕਾਬਲਾ

ਇਹ ਵਿਕਾਸ ਉਦਯੋਗ ਲਈ ਇੱਕ ਅਹਿਮ ਮੋੜ 'ਤੇ ਆਇਆ ਹੈ, ਕਿਉਂਕਿ ਕੰਪਿਊਟ ਦੀ ਉੱਚ ਲਾਗਤ AI ਸੇਵਾਵਾਂ ਦੇ ਵਿਸਤਾਰ ਲਈ ਮੁੱਖ ਰੁਕਾਵਟ ਬਣੀ ਹੋਈ ਹੈ। OpenAI ਇਕੱਲਾ ਅਜਿਹਾ ਖਿਡਾਰੀ ਨਹੀਂ ਹੈ ਜੋ ਇਸ "ਕੁਸ਼ਲਤਾ ਦੀ ਸੀਮਾ" (efficiency frontier) 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਰਿਹਾ ਹੈ। ਹਾਲ ਹੀ ਵਿੱਚ, DeepSeek ਨੇ ਇੱਕ ਨਵਾਂ ਓਪਨ-ਸੋਰਸ ਤਰੀਕਾ released ਕੀਤਾ ਹੈ ਜੋ ਇਨਫਰੈਂਸ ਰਿਕੁਐਸਟਾਂ ਨੂੰ 60% ਤੋਂ 85% ਤੱਕ ਤੇਜ਼ ਕਰਨ ਦੇ ਯੋਗ ਹੈ।

ਜਿਵੇਂ-ਜਿਵੇਂ ਮੁਕਾਬਲਾ ਤੇਜ਼ ਹੋ ਰਿਹਾ ਹੈ, ਧਿਆਨ ਸਿਰਫ਼ ਵੱਡੇ ਮਾਡਲ ਬਣਾਉਣ ਤੋਂ ਹਟ ਕੇ ਉਹਨਾਂ ਨੂੰ ਚਲਾਉਣ ਦੇ ਸਮਾਰਟ ਅਤੇ ਵਧੇਰੇ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕੇ ਬਣਾਉਣ ਵੱਲ ਜਾ ਰਿਹਾ ਹੈ। AI ਲੈਬਾਂ ਲਈ, ਇਨਫਰੈਂਸ ਲਾਗਤਾਂ ਵਿੱਚ ਬਚਾਇਆ ਗਿਆ ਹਰ ਪ੍ਰਤੀਸ਼ਤ "ਸਾਹ ਲੈਣ ਦੀ ਜਗ੍ਹਾ" (breathing room) ਵਿੱਚ ਬਦਲ ਜਾਂਦਾ ਹੈ—ਵਾਧੂ ਸਰੋਤ ਜੋ ਅਗਲੀ ਪੀੜ੍ਹੀ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ, ਰਿਸਪਾਂਸ ਲੇਟੈਂਸੀ (latency) ਵਿੱਚ ਸੁਧਾਰ ਕਰਨ, ਜਾਂ ਮੁਨਾਫੇ ਦੇ ਮਾਰਜਿਨ ਨੂੰ ਵਧਾਉਣ ਵੱਲ ਮੋੜੇ ਜਾ ਸਕਦੇ ਹਨ।

ਵਿਆਪਕ AI ਲੈਂਡਸਕੇਪ 'ਤੇ ਪ੍ਰਭਾਵ

ਹਾਲਾਂਕਿ ਇਹ ਅਨੁਕੂਲਨ ਵਰਤਮਾਨ ਵਿੱਚ ਉਤਪਾਦ ਦੇ ਇੱਕ ਸੀਮਤ ਹਿੱਸੇ 'ਤੇ ਲਾਗੂ ਹੁੰਦੇ ਹਨ, ਪਰ ਇਹ AI ਰਣਨੀਤੀ ਵਿੱਚ ਇੱਕ ਵਿਆਪਕ ਤਬਦੀਲੀ ਦਾ ਸੰਕੇਤ ਦਿੰਦੇ ਹਨ। ਜਿਵੇਂ-ਜਿਵੇਂ ਡਾਟਾ ਸੈਂਟਰਾਂ ਦਾ ਨਿਰਮਾਣ ਕੰਪਿਊਟ ਦੀ ਤੇਜ਼ੀ ਨਾਲ ਵਧ ਰਹੀ ਮੰਗ ਦੇ ਨਾਲ ਚੱਲਣ ਲਈ ਸੰਘਰਸ਼ ਕਰ ਰਿਹਾ ਹੈ, ਸਾਫਟਵੇਅਰ-ਪੱਧਰ ਦੇ ਅਨੁਕੂਲਨ ਹਾਰਡਵੇਅਰ ਵਾਧੇ (scaling) ਜਿੰਨੇ ਹੀ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦੇ ਜਾ ਰਹੇ ਹਨ।

ਜੇਕਰ OpenAI ਗੈਸਟ ਇੰਟਰਫੇਸ ਤੋਂ ਇਹਨਾਂ ਇਨਫਰੈਂਸ-ਬਚਤ ਤਕਨੀਕਾਂ ਨੂੰ ਪੂਰੇ ਪੱਧਰ ਦੇ ChatGPT ਉਤਪਾਦ ਵਿੱਚ ਸਫਲਤਾਪੂਰਵਕ ਲਾਗੂ ਕਰ ਸਕਦਾ ਹੈ, ਤਾਂ ਇਹ ਖਪਤਕਾਰ AI ਦੇ ਅਰਥ ਸ਼ਾਸਤਰ ਨੂੰ ਬੁਨਿਆਦੀ ਤੌਰ 'ਤੇ ਬਦਲ ਸਕਦਾ ਹੈ। ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਸੰਸਥਾਪਕਾਂ (founders) ਲਈ, ਇਹ ਇੱਕ ਵਧ ਰਹੇ ਰੁਝਾਨ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ: ਸਭ ਤੋਂ ਸਫਲ AI ਕੰਪਨੀਆਂ ਸਿਰਫ਼ ਉਹ ਨਹੀਂ ਹੋਣਗੀਆਂ ਜਿਨ੍ਹਾਂ ਕੋਲ ਸਭ ਤੋਂ ਵੱਧ ਪੈਰਾਮੀਟਰ ਹਨ, ਸਗੋਂ ਉਹ ਹੋਣਗੀਆਂ ਜਿਨ੍ਹਾਂ ਕੋਲ ਸਭ ਤੋਂ ਕੁਸ਼ਲ ਇਨਫਰੈਂਸ ਪਾਈਪਲਾਈਨਾਂ ਹਨ।

ਮੁੱਖ ਗੱਲਾਂ (Key Takeaways)

ਵੱਡੀ ਲਾਗਤ ਕਟੌਤੀ: ਰਿਪੋਰਟਾਂ ਅਨੁਸਾਰ, OpenAI ਨੇ ਨਵੇਂ ਇੰਜੀਨੀਅਰਿੰਗ ਅਨੁਕੂਲਨਾਂ ਰਾਹੀਂ ਬਿਨਾਂ ਖਾਤੇ ਵਾਲੇ ChatGPT ਯੂਜ਼ਰਾਂ ਲਈ ਇਨਫਰੈਂਸ ਲਾਗਤਾਂ ਵਿੱਚ 50% ਤੋਂ ਵੱਧ ਦੀ ਕਟੌਤੀ ਕੀਤੀ ਹੈ।
ਹਾਰਡਵੇਅਰ ਕੁਸ਼ਲਤਾ: ਅਨੁਕੂਲਨ ਨੇ ਗੈਸਟ ਯੂਜ਼ਰਾਂ ਦੀ ਸੇਵਾ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ Nvidia GPU ਦੀ ਵਰਤੋਂ ਨੂੰ ਘਟਾ ਕੇ ਸਿਰਫ਼ ਕੁਝ ਸੌ ਯੂਨਿਟਾਂ ਤੱਕ ਕਰ ਦਿੱਤਾ ਹੈ।
ਉਦਯੋਗਿਕ ਰੁਝਾਨ: ਕਿਉਂਕਿ ਹਾਰਡਵੇਅਰ ਦੀ ਸਪਲਾਈ ਇੱਕ ਰੁਕਾਵਟ ਬਣੀ ਹੋਈ ਹੈ, ਉਦਯੋਗ DeepSeek ਵਰਗੇ ਮੁਕਾਬਲੇਬਾਜ਼ਾਂ ਦੇ ਸਮਾਨ ਕੁਸ਼ਲਤਾ ਵਾਲੇ ਕਦਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹੋਏ ਇਨਫਰੈਂਸ-ਸਪੀਡ ਬ੍ਰੇਕਥਰੂ (breakthroughs) ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ।

OpenAI Slashes ChatGPT Inference Costs by Over 50% for Guest Users

OpenAI ਨੇ ਗੈਸਟ ਯੂਜ਼ਰਾਂ ਲਈ ChatGPT ਇਨਫਰੈਂਸ (Inference) ਲਾਗਤਾਂ ਵਿੱਚ 50% ਤੋਂ ਵੱਧ ਦੀ ਕਟੌਤੀ ਕੀਤੀ ਹੈ

ਗੈਸਟ ਅਨੁਭਵ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰਨਾ (Optimizing the Guest Experience)

ਇਨਫਰੈਂਸ ਕੁਸ਼ਲਤਾ ਲਈ ਮੁਕਾਬਲਾ

ਵਿਆਪਕ AI ਲੈਂਡਸਕੇਪ 'ਤੇ ਪ੍ਰਭਾਵ

ਮੁੱਖ ਗੱਲਾਂ (Key Takeaways)

Continue reading

ਨਵੇਂ ਸਿਹਤ ਬੈਂਚਮਾਰਕ ਵਿੱਚ OpenAI ਦਾ GPT 5.5 Instant ਡਾਕਟਰਾਂ ਤੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ

OpenAI Unveils Scheduled Task Controls to Transform ChatGPT into an AI Assistant

OpenAI Unveils Jalapeño: Its First Custom AI Inference Chip

OpenAI Jalapeño ਚਿੱਪ: OpenAI ਕਿਵੇਂ AI ਲਾਗਤਾਂ ਨੂੰ 50% ਤੱਕ ਘਟਾਉਂਦਾ ਹੈ