Hoe je LLM's gebruikt zonder je budget te overschrijden

Een AI-demo is eenvoudig te bouwen. Je krijgt een API-sleutel, schrijft een prompt en het werkt.

Maar het lanceren voor echte gebruikers is anders. Het verkeer komt op gang en je kosten schieten omhoog. Je latentie neemt toe. Je financiële afdeling stelt vragen.

De kloof tussen een demo en een echt product is engineering. Je moet kosten en snelheid beheren.

Beheer je output om geld te besparen

De meeste API's rekenen per token. Ze rekenen voor wat je stuurt en wat ze terugsturen. Output-tokens zijn duurder dan input-tokens.

Trim niet alleen je prompts. Focus op het antwoord. • Vraag om JSON. • Vraag om één zin. • Stel een limiet in voor het maximaal aantal tokens. • Vertel het model dat het kort moet zijn.

Korte antwoorden zijn goedkoper en sneller.

Verminder het aantal calls

De goedkoopste call is de call die je nooit maakt.

  • Gebruik caching. Veel gebruikers stellen dezelfde vragen. Een cache verandert een trage API-call in een snelle lookup.
  • Gebruik een router. Je hebt niet voor elke taak een enorm model nodig. Gebruik een klein, goedkoop model voor eenvoudig werk. Gebruik het dure model alleen voor moeilijke taken.

Verbeter de gebruikerservaring

Soms kun je het model niet sneller maken. Je kunt wel zorgen dat het sneller voelt.

  • Stream de responses. Toon de tekst terwijl deze wordt gegenereerd. Gebruikers kunnen direct beginnen met lezen. Dit zorgt ervoor dat de wachttijd korter aanvoelt.
  • Toon voortgang. Als het werk uit verschillende stappen bestaat, laat dit dan weten aan de gebruiker. Gebruik berichten als "Documenten zoeken..." in plaats van een leeg laadicoontje.

Beheer trage aanroepen

Een paar zeer trage aanroepen kunnen je product verpesten. Laat ze niet blijven hangen.

  • Stel strikte timeouts in. Bepaal wat er gebeurt als een aanroep te lang duurt.
  • Gebruik retries met limieten. Probeer het niet eeuwig opnieuw.
  • Gebruik circuit breakers. Als de provider offline is, stop dan met het versturen van aanroepen en toon een fallback.

Houd je gegevens bij

Je kunt niet repareren wat je niet meet. Log deze drie zaken voor elke aanroep: • Input-tokens • Output-tokens • Totale latentie

Houd dit per feature bij. Je zult waarschijnlijk één specifiek feature vinden dat verantwoordelijk is voor het grootste deel van je kosten.

Stop met het behandelen van het model als magie. Behandel het als een trage, dure afhankelijkheid die je moet beheren.

Bron: https://dev.to/muhammadzainnaseer/how-to-put-an-llm-in-your-product-without-wrecking-your-costs-or-your-latency-89a