کاهش هزینه‌های OpenAI از صفر

سه ماه پیش، صورت‌حساب OpenAI من به ۱۴,۲۰۰ دلار رسید.

این مشکل کوچکی نبود؛ یک تهدید وجودی برای حاشیه سود ما بود. ما همه چیز را از طریق GPT-4o هدایت می‌کردیم چون کار آسانی بود. ما مثل دیوانه‌ها توکن مصرف می‌کردیم.

در نهایت توانستم هزینه‌های LLM خود را ۹۷٪ کاهش دهم.

در اینجا توضیح می‌دهم که چگونه این کار را انجام دادم و شما هم چطور می‌توانید همین کار را بکنید.

The Math

استفاده از GPT-4o برای هر تسک را متوقف کردم. هزینه‌های واحد را بررسی کردم:

• GPT-4o: ۲.۵۰ دلار به ازای هر ۱ میلیون ورودی / ۱۰.۰۰ دلار به ازای هر ۱ میلیون خروجی • GPT-4o-mini: ۰.۱۵ دلار به ازای هر ۱ میلیون ورودی / ۰.۶۰ دلار به ازای هر ۱ میلیون خروجی (۱۶ برابر ارزان‌تر) • DeepSeek V4 Flash: ۰.۱۸ دلار به ازای هر ۱ میلیون ورودی / ۰.۲۵ دلار به ازای هر ۱ میلیون خروجی (۴۰ برابر ارزان‌تر)

با انتقال تسک‌های پرحجم و کم‌پیچیدگی به مدل‌های ارزان‌تر، صورت‌حساب ۱۴,۲۰۰ دلاری من به حدود ۳۵۵ دلار کاهش یافت.

The Strategy

بهینه‌سازی هزینه، یک مسئله‌ی اراده است. تغییر دادن ریسک‌دار به نظر می‌رسد. برای از بین بردن این ریسک، من از سه قانون معماری پیروی کردم:

۱. بر روی OpenAI SDK استانداردسازی کنید. اکثر ارائه‌دهندگان از OpenAI client library پشتیبانی می‌کنند. از آن استفاده کنید تا بتوانید بدون بازنویسی کد، ارائه‌دهنده را تغییر دهید.

۲. نام مدل را انتزاعی (Abstract) کنید. هرگز "gpt-4o" را به صورت hardcode در منطق برنامه خود قرار ندهید. نام مدل‌ها را در یک فایل تنظیمات (config file) یا متغیر محیطی (environment variable) نگه دارید.

۳. یک روتر (router) بسازید. تسک‌های مختلف را به مدل‌های مختلف بفرستید. از مدل‌های پرمیوم برای استدلال‌های پیچیده و از مدل‌های ارزان برای classification یا extraction استفاده کنید.

The Migration Process

همه چیز را یک‌باره مهاجرت ندهید. این یک اشتباه است. من این کار را امتحان کردم و شاهد جهش نرخ خطا بودم.

در عوض، این مسیر را دنبال کنید:

• هزینه‌های خود را حسابرسی کنید. دقیقاً بفهمید کدام ویژگی‌ها بیشترین پول را مصرف می‌کنند. • یک ماتریس هم‌ترازی (parity matrix) ایجاد کنید. تمام ویژگی‌هایی که استفاده می‌کنید، مانند function calling یا streaming را لیست کنید. بررسی کنید که آیا ارائه‌دهنده جدید از آن‌ها پشتیبانی می‌کند یا خیر. • با ترافیک واقعی تست بارگذاری (load test) انجام دهید. درصد کمی از production traffic را به ارائه‌دهنده جدید بفرستید. کیفیت و latency را مقایسه کنید. • یک روتر بسازید. سیستمی را پیاده‌سازی کنید که ارزان‌ترین مدلِ قادر به انجام آن کار را انتخاب کند.

The Result

میانگین هزینه ما به ازای هر درخواست از ۰.۰۱۲ دلار به ۰.۰۰۰۸ دلار کاهش یافت.

کاهش هزینه‌ها نقشه راه محصول ما را تغییر داد. ما دیگر ویژگی‌های جدید را به دلیل هزینه‌ی بالای اجرا حذف نمی‌کنیم. کاهش inference cost، توانایی شما را برای رشد آزاد می‌کند.

Source: https://dev.to/eagerspark/cutting-openai-costs-from-scratch-what-nobody-tells-you-43a8

Optional learning community: https://t.me/GyaanSetuAi