Ihre KI-Rechnung ist kein Modell-Problem. Es ist ein Architektur-Problem.

Wenn Ihre LLM-Kosten steigen, möchten Sie wahrscheinlich zu einem günstigeren Modell wechseln. Sie wechseln vielleicht von GPT-4 zu GPT-4-mini. Das hilft ein wenig, löst das eigentliche Problem aber selten.

Das eigentliche Problem ist Ihr Workflow. Die meisten leiten jeden Schritt über ein LLM. Sie nutzen sprachliches Schlussfolgern für Aufgaben, die dies gar nicht erfordern.

Jeder KI-Workflow besteht aus vier Teilen:

• Trigger: Startet die Arbeit. Die Kosten liegen nahe bei Null. • Deterministisches ML: Klassifiziert oder bewertet Daten. Das ist günstig. • LLM: Liest, schreibt und schlussfolgert. Das ist teuer. • Tool/API: Ruft Daten ab oder schreibt sie. Das ist günstig.

Die Lücke zwischen deterministischem ML und einem LLM ist gewaltig. Ein LLM kann das 100- bis 1000-fache eines einfachen Klassifizierers kosten. Wenn Sie nicht für jeden Schritt das richtige Werkzeug wählen, greifen Sie standardmäßig auf das teure zurück.

Betrachten wir ein Support-Ticket-System.

Eine schlechte Implementierung sendet das gesamte Ticket an ein LLM. Sie bittet das LLM, die Absicht zu klassifizieren, das Ticket weiterzuleiten, eine Antwort zu entwerfen und das CRM zu aktualisieren. Das ist überteuert. Für die Klassifizierung benötigt man kein LLM. Man braucht lediglich ein einfaches Modell, um Text einer Kategorie zuzuordnen.

Eine bessere Implementierung sieht so aus:

  1. Trigger: Ein Ticket geht ein.
  2. Deterministisches ML: Ein schnelles, günstiges Modell entscheidet, ob das Ticket die Abrechnung, technische Probleme oder Spam betrifft.
  3. LLM: Wird nur verwendet, um eine Antwort für gültige Tickets zu entwerfen.
  4. Tool/API: Das System aktualisiert das CRM.

In dieser Version erreichen Spam-Tickets das LLM nie. Sie hören auf, die „LLM-Steuer“ für nutzlose Aufgaben zu zahlen.

Wenn Sie Ihre Architektur korrekt strukturieren, eliminieren Sie die teuersten Aufrufe, noch bevor Sie überhaupt die Modelle wechseln.

Befolgen Sie diese Schritte, um Ihre Kosten zu senken:

  • Visualisieren Sie Ihren Workflow. Identifizieren Sie, welche Schritte echtes Schlussfolgern erfordern und welche lediglich der Klassifizierung oder Extraktion dienen.
  • Lagern Sie deterministische Schritte aus dem Prompt aus. Nutzen Sie schnellere, günstigere Methoden für das Routing und Scoring.
  • Nutzen Sie das LLM als Gatekeeper. Generieren Sie keine Antworten für Aufgaben, die dies nicht erfordern.
  • Bewerten Sie die Modellgröße zuletzt. Wählen Sie erst dann ein kleineres Modell für den Generierungsschritt, wenn Ihre Architektur schlank ist.

Hören Sie auf darüber zu diskutieren, welches Modell pro Token am günstigsten ist. Fangen Sie an, Architekturen zu bauen, die die teure Engine nur dann nutzen, wenn es notwendig ist.

Quelle: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole

Optionale Lern-Community: https://t.me/GyaanSetuAi