La API de OpenAI que todo el mundo copió no es la que recomiendan

La mayoría de las herramientas de modelos locales como Ollama, vLLM y LM Studio utilizan una insignia de "compatible con OpenAI".

Pero hay un problema. La mayoría de la gente piensa que esto significa una cosa específica. En realidad, existen dos formatos diferentes. Uno es el estándar de la industria. El otro es lo que OpenAI realmente quiere que uses.

Aquí tienes el desglose.

El estándar antiguo: Chat Completions API Este es el formato que todo el mundo copió. Utiliza una lista de mensajes con roles como developer, user y assistant.

Tiene dos problemas principales:

  • No tiene estado (stateless). Debes reenviar todo el historial de la conversación cada vez.
  • Es pesado. Para agentes complejos, enviar transcripciones enormes se vuelve lento y costoso.

El nuevo estándar: Responses API OpenAI introdujo esto en marzo de 2025. Está diseñado para agentes, no solo para chatbots simples.

Por qué es mejor:

  • Tiene estado (stateful). El servidor recuerda la conversación. No necesitas reenviarlo todo.
  • Gestiona mejor el razonamiento. Mantiene la "cadena de pensamiento" (chain of thought) del modelo en el servidor.
  • Utiliza una estructura más limpia. Separa las instrucciones de la entrada real del usuario.

La confusión Cuando una herramienta dice que es "compatible con OpenAI", casi siempre significa que admite el antiguo formato Chat Completions.

La industria construyó un ecosistema masivo alrededor de este antiguo formato. Debido a que estaba en todas partes, se convirtió en el estándar por defecto. Esto creó el riesgo de que todo el mundo estuviera construyendo clones de la API privada de una sola empresa.

La solución: Open Responses Para solucionar esto, OpenAI y socios como Hugging Face y Vercel lanzaron la especificación Open Responses.

En lugar de adivinar cómo funciona una API, los desarrolladores ahora tienen un estándar documentado y comprobable. Esto permite cambiar entre OpenAI y modelos locales con cambios mínimos en el código.

Qué deberías hacer:

  • Si estás construyendo un proyecto nuevo, utiliza la Responses API.
  • Si estás manteniendo aplicaciones antiguas, Chat Completions seguirá siendo compatible durante mucho tiempo.
  • Comprueba siempre si tu herramienta admite el nuevo formato con estado (stateful) para ahorrar en costes y latencia.

Conocer la diferencia evita errores en el conteo de tokens y en las estructuras de los mensajes.

Fuente: https://dev.to/rlnorthcutt/the-openai-api-everyone-copied-isnt-the-one-openai-recommends-28o8

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi