𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

Translated for your language. Original lesen.

AI-assisted draft.

vor 2 Wochen1Min. Lesezeit

Ich habe meine KI-API-Kosten um 70 % gesenkt

Meine OpenAI-Rechnung sprang von 30 $ auf 150 $ hoch. Ein kleiner Slack-Bot war die Ursache. Wiederholte Prompts und Retries waren zu teuer.

Ich habe einfache Lösungen versucht. Ich habe einfaches Caching genutzt. Ich habe die Modelle gewechselt. Nichts hat funktioniert. Nutzer formulieren Fragen um. Einfaches Caching versagt, wenn sich die Wörter ändern.

Ich habe einen KI-Proxy gebaut. Er sitzt zwischen meiner App und der API. Er erledigt drei Dinge:

Semantisches Caching. Ich verwende Embeddings, um ähnliche Fragen zu finden. Wenn die Übereinstimmung hoch ist, liefere ich die gecachte Antwort aus.
Rate Limiting. Ich nutze Redis, um Request-Bursts zu stoppen.
Retry-Buffer. Der Proxy wiederholt fehlgeschlagene Aufrufe automatisch.

Das hat meine Kosten um 70 % gesenkt.

Es gibt Kompromisse:

Latenz. Es fügt pro Anfrage 200 ms hinzu.
Speicherplatz. Redis benötigt Platz für Vektoren.
Genauigkeit. Einige ähnliche Prompts benötigen unterschiedliche Antworten.

Lehren für dich:

Beginne mit Open-Source-Tools wie LiteLLM.
Verfolge deine Daten vom ersten Tag an.
Nutze Message Queues für hohen Traffic.

Hör auf, KI-APIs wie Black Boxes zu behandeln. Sie sind HTTP-Endpunkte. Nutze Middleware, um sie zu steuern.

Wie sieht dein Setup aus? Nutzt du einen Service oder baust du deinen eigenen?

Quelle: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

Weiterlesen

𝗦𝘁𝗼𝗽 𝗪𝗮𝘀𝘁𝗶𝗻𝗴 𝗠𝗼𝗻𝗲𝘆 𝗼𝗻 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁

Wie ich unsere KI-API-Kosten halbiert habe und dabei p99-SLAs einhielt

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹