𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

Translated for your language. Read the original.

AI-assisted draft.

2 tuần trước1min read

Tôi đã cắt giảm 70% chi phí AI API của mình

Hóa đơn OpenAI của tôi đã tăng từ $30 lên $150. Một con bot Slack nhỏ đã gây ra việc này. Việc lặp lại các prompt và retry quá nhiều đã tiêu tốn quá nhiều chi phí.

Tôi đã thử các cách khắc phục đơn giản. Tôi đã sử dụng caching cơ bản. Tôi đã chuyển đổi các model. Không có cách nào hiệu quả. Người dùng diễn đạt lại câu hỏi. Caching cơ bản sẽ thất bại khi từ ngữ thay đổi.

Tôi đã xây dựng một AI proxy. Nó nằm giữa ứng dụng của tôi và API. Nó thực hiện ba việc:

Semantic caching. Tôi sử dụng embeddings để tìm các câu hỏi tương tự. Tôi sẽ trả về câu trả lời đã cache nếu độ khớp cao.
Rate limiting. Tôi sử dụng Redis để ngăn chặn các đợt request dồn dập.
Retry buffers. Proxy sẽ tự động thử lại các cuộc gọi bị lỗi.

Điều này đã giúp tôi cắt giảm 70% chi phí.

Có những sự đánh đổi:

Latency. Nó làm tăng thêm 200ms cho mỗi request.
Memory. Redis cần không gian cho các vector.
Accuracy. Một số prompt tương tự nhau nhưng lại cần những câu trả lời khác nhau.

Bài học cho bạn:

Hãy bắt đầu với các công cụ mã nguồn mở như LiteLLM.
Hãy theo dõi dữ liệu của bạn ngay từ ngày đầu tiên.
Sử dụng message queues cho lưu lượng truy cập cao.

Đừng coi AI API như những black box. Chúng là các HTTP endpoints. Hãy sử dụng middleware để kiểm soát chúng.

Thiết lập của bạn là gì? Bạn sử dụng một dịch vụ hay tự xây dựng?

Nguồn: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

Continue reading

Đừng lãng phí tiền cho các AI API nữa

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

Cách tôi ngăn tính năng AI làm cạn kiệt túi tiền của mình

Cách tôi cắt giảm một nửa hóa đơn AI API trong khi vẫn đạt được 99% SLA

7 cách để giảm hóa đơn AI của bạn