کاهش هزینههای OpenAI از صفر
سه ماه پیش، صورتحساب OpenAI من به ۱۴,۲۰۰ دلار رسید.
این مشکل کوچکی نبود؛ یک تهدید وجودی برای حاشیه سود ما بود. ما همه چیز را از طریق GPT-4o هدایت میکردیم چون کار آسانی بود. ما مثل دیوانهها توکن مصرف میکردیم.
در نهایت توانستم هزینههای LLM خود را ۹۷٪ کاهش دهم.
در اینجا توضیح میدهم که چگونه این کار را انجام دادم و شما هم چطور میتوانید همین کار را بکنید.
The Math
استفاده از GPT-4o برای هر تسک را متوقف کردم. هزینههای واحد را بررسی کردم:
• GPT-4o: ۲.۵۰ دلار به ازای هر ۱ میلیون ورودی / ۱۰.۰۰ دلار به ازای هر ۱ میلیون خروجی • GPT-4o-mini: ۰.۱۵ دلار به ازای هر ۱ میلیون ورودی / ۰.۶۰ دلار به ازای هر ۱ میلیون خروجی (۱۶ برابر ارزانتر) • DeepSeek V4 Flash: ۰.۱۸ دلار به ازای هر ۱ میلیون ورودی / ۰.۲۵ دلار به ازای هر ۱ میلیون خروجی (۴۰ برابر ارزانتر)
با انتقال تسکهای پرحجم و کمپیچیدگی به مدلهای ارزانتر، صورتحساب ۱۴,۲۰۰ دلاری من به حدود ۳۵۵ دلار کاهش یافت.
The Strategy
بهینهسازی هزینه، یک مسئلهی اراده است. تغییر دادن ریسکدار به نظر میرسد. برای از بین بردن این ریسک، من از سه قانون معماری پیروی کردم:
۱. بر روی OpenAI SDK استانداردسازی کنید. اکثر ارائهدهندگان از OpenAI client library پشتیبانی میکنند. از آن استفاده کنید تا بتوانید بدون بازنویسی کد، ارائهدهنده را تغییر دهید.
۲. نام مدل را انتزاعی (Abstract) کنید. هرگز "gpt-4o" را به صورت hardcode در منطق برنامه خود قرار ندهید. نام مدلها را در یک فایل تنظیمات (config file) یا متغیر محیطی (environment variable) نگه دارید.
۳. یک روتر (router) بسازید. تسکهای مختلف را به مدلهای مختلف بفرستید. از مدلهای پرمیوم برای استدلالهای پیچیده و از مدلهای ارزان برای classification یا extraction استفاده کنید.
The Migration Process
همه چیز را یکباره مهاجرت ندهید. این یک اشتباه است. من این کار را امتحان کردم و شاهد جهش نرخ خطا بودم.
در عوض، این مسیر را دنبال کنید:
• هزینههای خود را حسابرسی کنید. دقیقاً بفهمید کدام ویژگیها بیشترین پول را مصرف میکنند. • یک ماتریس همترازی (parity matrix) ایجاد کنید. تمام ویژگیهایی که استفاده میکنید، مانند function calling یا streaming را لیست کنید. بررسی کنید که آیا ارائهدهنده جدید از آنها پشتیبانی میکند یا خیر. • با ترافیک واقعی تست بارگذاری (load test) انجام دهید. درصد کمی از production traffic را به ارائهدهنده جدید بفرستید. کیفیت و latency را مقایسه کنید. • یک روتر بسازید. سیستمی را پیادهسازی کنید که ارزانترین مدلِ قادر به انجام آن کار را انتخاب کند.
The Result
میانگین هزینه ما به ازای هر درخواست از ۰.۰۱۲ دلار به ۰.۰۰۰۸ دلار کاهش یافت.
کاهش هزینهها نقشه راه محصول ما را تغییر داد. ما دیگر ویژگیهای جدید را به دلیل هزینهی بالای اجرا حذف نمیکنیم. کاهش inference cost، توانایی شما را برای رشد آزاد میکند.
Source: https://dev.to/eagerspark/cutting-openai-costs-from-scratch-what-nobody-tells-you-43a8
Optional learning community: https://t.me/GyaanSetuAi
