Die OpenAI API, die alle kopiert haben, ist nicht die, die sie empfehlen
Die meisten Tools für lokale Modelle wie Ollama, vLLM und LM Studio verwenden ein „OpenAI-compatible“-Abzeichen.
Aber es gibt ein Problem. Die meisten Menschen denken, dass dies eine ganz bestimmte Sache bedeutet. In Wirklichkeit gibt es zwei verschiedene Formate. Das eine ist der Industriestandard. Das andere ist das, was OpenAI tatsächlich von Ihnen möchte.
Hier ist die Aufschlüsselung.
Der alte Standard: Chat Completions API
Dies ist das Format, das alle kopiert haben. Es verwendet eine Liste von Nachrichten mit Rollen wie developer, user und assistant.
Es hat zwei Hauptprobleme:
- Es ist zustandslos (stateless). Sie müssen den gesamten Gesprächsverlauf jedes Mal neu senden.
- Es ist schwerfällig. Bei komplexen Agenten wird das Senden riesiger Transkripte langsam und teuer.
Der neue Standard: Responses API
OpenAI hat dies im März 2025 eingeführt. Es ist für Agenten konzipiert, nicht nur für einfache Chatbots.
Warum es besser ist:
- Es ist zustandsbehaftet (stateful). Der Server merkt sich das Gespräch. Sie müssen nicht alles erneut senden.
- Es verarbeitet logisches Denken (reasoning) besser. Es behält die „Chain of Thought“ des Modells auf dem Server.
- Es verwendet eine sauberere Struktur. Es trennt Anweisungen vom eigentlichen Benutzereingabe.
Die Verwirrung
Wenn ein Tool angibt, „OpenAI-compatible“ zu sein, bedeutet dies fast immer, dass es das alte Chat Completions-Format unterstützt.
Die Branche hat ein massives Ökosystem um dieses alte Format herum aufgebaut. Da es überall vorhanden war, wurde es zum Standard. Dies schuf ein Risiko, bei dem jeder Klone der privaten API eines einzelnen Unternehmens baute.
Die Lösung: Open Responses
Um dies zu beheben, haben OpenAI und Partner wie Hugging Face und Vercel die Open Responses-Spezifikation eingeführt.
Anstatt zu raten, wie eine API funktioniert, haben Entwickler nun einen dokumentierten, testbaren Standard. Dies ermöglicht es Ihnen, mit minimalen Codeänderungen zwischen OpenAI und lokalen Modellen zu wechseln.
Was Sie tun sollten:
- Wenn Sie ein neues Projekt entwickeln, verwenden Sie die Responses API.
- Wenn Sie alte Anwendungen warten, wird Chat Completions noch lange unterstützt werden.
- Prüfen Sie immer, ob Ihr Tool das neue zustandsbehaftete Format unterstützt, um Kosten und Latenz zu sparen.
Das Wissen um den Unterschied verhindert Fehler bei der Token-Zählung und den Nachrichtenstrukturen.
Quelle: https://dev.to/rlnorthcutt/the-openai-api-everyone-copied-isnt-the-one-openai-recommends-28o8
Optionale Lern-Community: https://t.me/GyaanSetuAi
