L'API di OpenAI che tutti hanno copiato non è quella che raccomandano

La maggior parte degli strumenti per modelli locali come Ollama, vLLM e LM Studio utilizza il badge "OpenAI-compatible".

Ma c'è un problema. La maggior parte delle persone pensa che questo significhi una cosa specifica. In realtà, esistono due formati diversi. Uno è lo standard del settore. L'altro è ciò che OpenAI vuole effettivamente che tu utilizzi.

Ecco l'analisi.

Il vecchio standard: Chat Completions API Questo è il formato che tutti hanno copiato. Utilizza un elenco di messaggi con ruoli come developer, user e assistant.

Presenta due problemi principali:

  • È stateless. Devi reinviare l'intera cronologia della conversazione ogni singola volta.
  • È pesante. Per gli agenti complessi, l'invio di enormi trascrizioni diventa lento e costoso.

Il nuovo standard: Responses API OpenAI lo ha introdotto nel marzo 2025. È progettato per gli agenti, non solo per semplici chatbot.

Perché è migliore:

  • È stateful. Il server ricorda la conversazione. Non è necessario reinviare tutto.
  • Gestisce meglio il ragionamento. Mantiene la "chain of thought" del modello sul server.
  • Utilizza una struttura più pulita. Separa le istruzioni dall'effettivo input dell'utente.

La confusione Quando uno strumento afferma di essere "OpenAI-compatible", quasi sempre significa che supporta il vecchio formato Chat Completions.

Il settore ha costruito un enorme ecosistema attorno a questo vecchio formato. Poiché era ovunque, è diventato lo standard predefinito. Ciò ha creato il rischio che tutti costruissero cloni dell'API privata di una singola azienda.

La soluzione: Open Responses Per risolvere il problema, OpenAI e partner come Hugging Face e Vercel hanno lanciato la specifica Open Responses.

Invece di tirare a indovinare come funziona un'API, gli sviluppatori hanno ora uno standard documentato e testabile. Ciò consente di passare da OpenAI ai modelli locali con modifiche minime al codice.

Cosa dovresti fare:

  • Se stai costruendo un nuovo progetto, usa la Responses API.
  • Se stai mantenendo vecchie applicazioni, Chat Completions rimarrà supportata per molto tempo.
  • Controlla sempre se il tuo strumento supporta il nuovo formato stateful per risparmiare su costi e latenza.

Conoscere la differenza previene errori nel conteggio dei token e nelle strutture dei messaggi.

Fonte: https://dev.to/rlnorthcutt/the-openai-api-everyone-copied-isnt-the-one-openai-recommends-28o8

Community di apprendimento opzionale: https://t.me/GyaanSetuAi