A API da OpenAI que todos copiaram não é a que eles recomendam

A maioria das ferramentas de modelos locais, como Ollama, vLLM e LM Studio, usa um selo de "compatível com OpenAI".

Mas há um problema. A maioria das pessoas pensa que isso significa uma coisa específica. Na realidade, existem dois formatos diferentes. Um é o padrão da indústria. O outro é o que a OpenAI realmente quer que você use.

Aqui está a explicação detalhada.

O Padrão Antigo: Chat Completions API Este é o formato que todos copiaram. Ele utiliza uma lista de mensagens com funções como developer, user e assistant.

Ele tem dois problemas principais:

  • Ele é stateless. Você deve reenviar todo o histórico da conversa todas as vezes.
  • Ele é pesado. Para agentes complexos, enviar transcrições enormes torna o processo lento e caro.

O Novo Padrão: Responses API A OpenAI introduziu isso em março de 2025. Ele foi projetado para agentes, não apenas para chatbots simples.

Por que é melhor:

  • Ele é stateful. O servidor lembra da conversa. Você não precisa reenviar tudo.
  • Ele lida melhor com o raciocínio. Ele mantém a "chain of thought" do modelo no servidor.
  • Ele utiliza uma estrutura mais limpa. Ele separa as instruções da entrada real do usuário.

A Confusão Quando uma ferramenta diz que é "compatível com OpenAI", quase sempre significa que ela suporta o antigo formato Chat Completions.

A indústria construiu um ecossistema massivo em torno deste formato antigo. Por estar em todos os lugares, ele se tornou o padrão. Isso criou um risco onde todos estavam construindo clones da API privada de uma única empresa.

A Solução: Open Responses Para corrigir isso, a OpenAI e parceiros como Hugging Face e Vercel lançaram a especificação Open Responses.

Em vez de adivinhar como uma API funciona, os desenvolvedores agora têm um padrão documentado e testável. Isso permite alternar entre a OpenAI e modelos locais com mudanças mínimas de código.

O que você deve fazer:

  • Se você estiver construindo um novo projeto, use a Responses API.
  • Se estiver mantendo aplicativos antigos, o Chat Completions continuará sendo suportado por muito tempo.
  • Sempre verifique se sua ferramenta suporta o novo formato stateful para economizar em custos e latência.

Conhecer a diferença evita erros na contagem de tokens e nas estruturas de mensagens.

Fonte: https://dev.to/rlnorthcutt/the-openai-api-everyone-copied-isnt-the-one-openai-recommends-28o8

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi