शुरुआत से OpenAI की लागत में कटौती करना
तीन महीने पहले, मेरा OpenAI बिल $14,200 तक पहुँच गया था।
यह कोई छोटी समस्या नहीं थी। यह हमारे मुनाफे (margins) के लिए एक अस्तित्वगत खतरा था। हम सब कुछ GPT-4o के माध्यम से रूट कर रहे थे क्योंकि यह आसान था। हम पागलों की तरह टोकन खर्च कर रहे थे।
अंततः मैंने अपने LLM खर्च में 97% की कटौती की।
यहाँ बताया गया है कि मैंने यह कैसे किया और आप भी ऐसा ही कैसे कर सकते हैं।
गणित (The Math)
मैंने हर काम के लिए GPT-4o का उपयोग करना बंद कर दिया। मैंने यूनिट लागत (unit costs) पर गौर किया:
• GPT-4o: $2.50 प्रति 1M इनपुट / $10.00 प्रति 1M आउटपुट • GPT-4o-mini: $0.15 प्रति 1M इनपुट / $0.60 प्रति 1M आउटपुट (16 गुना सस्ता) • DeepSeek V4 Flash: $0.18 प्रति 1M इनपुट / $0.25 प्रति 1M आउटपुट (40 गुना सस्ता)
अधिक मात्रा वाले, कम जटिलता वाले कार्यों को सस्ते मॉडल्स पर स्थानांतरित करके, मेरा $14,200 का बिल घटकर लगभग $355 रह गया।
रणनीति (The Strategy)
लागत अनुकूलन (Cost optimization) इच्छाशक्ति की समस्या है। स्विच करना जोखिम भरा लगता है। उस जोखिम को दूर करने के लिए, मैंने तीन आर्किटेक्चरल नियमों का पालन किया:
OpenAI SDK को मानकीकृत (Standardize) करें। अधिकांश प्रदाता OpenAI क्लाइंट लाइब्रेरी का समर्थन करते हैं। इसका उपयोग करें ताकि आप कोड को फिर से लिखे बिना प्रदाताओं को बदल सकें।
मॉडल के नाम को एब्स्ट्रैक्ट (Abstract) करें। अपने लॉजिक में कभी भी "gpt-4o" को हार्डकोड न करें। मॉडल के नाम को एक कॉन्फ़िग फ़ाइल या एनवायरनमेंट वेरिएबल में रखें।
एक राउटर (router) बनाएँ। अलग-अलग कार्यों को अलग-अलग मॉडल्स पर भेजें। जटिल तर्क (complex reasoning) के लिए प्रीमियम मॉडल्स का उपयोग करें और वर्गीकरण (classification) या निष्कर्षण (extraction) के लिए सस्ते मॉडल्स का उपयोग करें।
माइग्रेशन प्रक्रिया (The Migration Process)
सब कुछ एक साथ माइग्रेट न करें। यह एक गलती है। मैंने ऐसा करने की कोशिश की थी और एरर रेट (error rates) में भारी उछाल देखा था।
इसके बजाय, इस रास्ते का पालन करें:
• अपने खर्च का ऑडिट करें। पता लगाएँ कि वास्तव में कौन से फीचर्स सबसे अधिक पैसा खर्च कर रहे हैं। • एक पैरिटी मैट्रिक्स (parity matrix) बनाएँ। आपके द्वारा उपयोग किए जाने वाले प्रत्येक फीचर की सूची बनाएँ, जैसे कि function calling या streaming। जाँचें कि क्या आपका नया प्रदाता उनका समर्थन करता है। • वास्तविक ट्रैफिक के साथ लोड टेस्ट करें। प्रोडक्शन ट्रैफिक का एक छोटा प्रतिशत नए प्रदाता को भेजें। गुणवत्ता और लेटेंसी (latency) की तुलना करें। • एक राउटर बनाएँ। एक ऐसी प्रणाली लागू करें जो काम करने में सक्षम सबसे सस्ता मॉडल चुने।
परिणाम (The Result)
प्रति अनुरोध हमारी औसत लागत $0.012 से घटकर $0.0008 हो गई।
कम लागत ने हमारे प्रोडक्ट रोडमैप को बदल दिया। अब हम नए फीचर्स को इसलिए बंद नहीं करते क्योंकि उन्हें चलाना बहुत महंगा है। अपनी इन्फरेंस लागत (inference cost) को कम करना आपकी बढ़ने की क्षमता को अनलॉक करता है।
Source: https://dev.to/eagerspark/cutting-openai-costs-from-scratch-what-nobody-tells-you-43a8
Optional learning community: https://t.me/GyaanSetuAi
