Tôi đã cắt giảm 70% chi phí AI API của mình
Hóa đơn OpenAI của tôi đã tăng từ $30 lên $150. Một con bot Slack nhỏ đã gây ra việc này. Việc lặp lại các prompt và retry quá nhiều đã tiêu tốn quá nhiều chi phí.
Tôi đã thử các cách khắc phục đơn giản. Tôi đã sử dụng caching cơ bản. Tôi đã chuyển đổi các model. Không có cách nào hiệu quả. Người dùng diễn đạt lại câu hỏi. Caching cơ bản sẽ thất bại khi từ ngữ thay đổi.
Tôi đã xây dựng một AI proxy. Nó nằm giữa ứng dụng của tôi và API. Nó thực hiện ba việc:
- Semantic caching. Tôi sử dụng embeddings để tìm các câu hỏi tương tự. Tôi sẽ trả về câu trả lời đã cache nếu độ khớp cao.
- Rate limiting. Tôi sử dụng Redis để ngăn chặn các đợt request dồn dập.
- Retry buffers. Proxy sẽ tự động thử lại các cuộc gọi bị lỗi.
Điều này đã giúp tôi cắt giảm 70% chi phí.
Có những sự đánh đổi:
- Latency. Nó làm tăng thêm 200ms cho mỗi request.
- Memory. Redis cần không gian cho các vector.
- Accuracy. Một số prompt tương tự nhau nhưng lại cần những câu trả lời khác nhau.
Bài học cho bạn:
- Hãy bắt đầu với các công cụ mã nguồn mở như LiteLLM.
- Hãy theo dõi dữ liệu của bạn ngay từ ngày đầu tiên.
- Sử dụng message queues cho lưu lượng truy cập cao.
Đừng coi AI API như những black box. Chúng là các HTTP endpoints. Hãy sử dụng middleware để kiểm soát chúng.
Thiết lập của bạn là gì? Bạn sử dụng một dịch vụ hay tự xây dựng?