OpenAI API, яку всі копіювали, — це не та API, яку вони рекомендують

Більшість інструментів для локальних моделей, таких як Ollama, vLLM та LM Studio, використовують позначку «OpenAI-compatible».

Але є проблема. Більшість людей вважають, що це означає щось одне конкретне. Насправді ж існує два різні формати. Один є галузевим стандартом. Інший — це те, що OpenAI насправді хоче, щоб ви використовували.

Ось детальний розбір.

Старий стандарт: Chat Completions API

Це формат, який скопіювали всі. Він використовує список повідомлень із ролями, такими як developer, user та assistant.

Він має дві основні проблеми:

  • Він є stateless (без збереження стану). Ви повинні щоразу надсилати всю історію розмови.
  • Він є «важким». Для складних агентів надсилання величезних транскриптів стає повільним і дорогим.

Новий стандарт: Responses API

OpenAI представила його в березні 2025 року. Він розроблений для агентів, а не лише для простих чат-ботів.

Чому він кращий:

  • Він є stateful (зі збереженням стану). Сервер пам'ятає розмову. Вам не потрібно надсилати все заново.
  • Він краще обробляє міркування. Він зберігає «ланцюжок думок» (chain of thought) моделі на сервері.
  • Він використовує чистішу структуру. Він відокремлює інструкції від фактичного введення користувача.

Плутанина

Коли інструмент заявляє, що він «OpenAI-compatible», це майже завжди означає, що він підтримує старий формат Chat Completions.

Галузь побудувала величезну екосистему навколо цього старого формату. Оскільки він був усюди, він став стандартом за замовчуванням. Це створило ризик, за якого всі будували клони приватного API однієї компанії.

Рішення: Open Responses

Щоб виправити це, OpenAI та партнери, такі як Hugging Face і Vercel, запустили специфікацію Open Responses.

Замість того, щоб вгадувати, як працює API, розробники тепер мають задокументований стандарт, який можна протестувати. Це дозволяє перемикатися між OpenAI та локальними моделями з мінімальними змінами в коді.

Що вам варто зробити:

  • Якщо ви створюєте новий проєкт, використовуйте Responses API.
  • Якщо ви підтримуєте старі додатки, Chat Completions залишатиметься підтримуваним ще довгий час.
  • Завжди перевіряйте, чи підтримує ваш інструмент новий stateful-формат, щоб заощадити на витратах і затримках (latency).

Знання різниці запобігає помилкам у підрахунку токенів та структурах повідомлень.

Джерело: https://dev.to/rlnorthcutt/the-openai-api-everyone-copied-isnt-the-one-openai-recommends-28o8

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi