Кодинг уровня frontier по цене бюджетного сегмента

Вы можете получить результаты кодинга уровня frontier за малую часть стоимости.

Мы создали систему, которая использует дешевую локальную модель для большинства задач. Сложные проблемы она отправляет только на frontier-модель. Этот метод работает благодаря структуре, а не только размеру модели.

Как работает архитектура:

  • Два канала: канал возможностей (дешевая локальная модель) и структурный канал (шлюзы верификации).
  • Верификация: «стражи» (guards) решают, можно ли доверять ответу.
  • Эскалация: если стражи не справляются, система передает запрос на frontier-модель.
  • Кэш: слой кэширования предотвращает повторное решение идентичных задач.

Результаты наших тестов HumanEval+:

  • Результат полной каскадной системы: 94,5% плюс корректность.
  • Результат только локальной модели: 84,8% плюс корректность.
  • Структурный канал добавляет примерно 10 пунктов точности.

Мы проверили важность структуры с помощью исследования методом абляции (ablation study):

  • Полная система: 100% корректно.
  • Без верификации: 75% корректно.
  • Без стражей: 50% корректно.

При удалении стражей корректность падает вдвое. Это доказывает, что именно структура обеспечивает надежность.

Преимущества в стоимости:

  • Смешанная стоимость: $0,00201 за запрос.
  • Стоимость frontier-модели: $0,017 за запрос.
  • Наша система примерно в 8 раз дешевле, чем использование frontier-модели для каждого запроса.
  • 91% запросов обрабатывается локальной моделью.

Примечание о длинном контексте:

Наш слой сжатия (compaction layer) использует 165 токенов по сравнению с 28 000 токенов для исходного контекста. Это колоссальный рост эффективности. Мы уперлись в инфраструктурное ограничение на 208 тысячах токенов, но это связано с настройками, а не с ошибкой модели.

Что мы еще не доказали:

У нас нет официальных показателей бенчмарков для длинных горизонтов (long-horizon). Мы разработали исполнителей (runners) для RULER и SWE-bench, но еще не запускали их в чистой песочнице. Мы пока не заявляем об официальных результатах производительности на длинных горизонтах.

Резюме нашего утверждения:

Наша система достигает показателей кодинга уровня frontier, используя дешевые локальные модели. Это снижает затраты в 8 раз. Надежность обеспечивается нашим структурным каналом.

Источник: https://dev.to/tom_jones_230c4659491adcd/frontier-quality-coding-at-cheap-tier-cost-what-we-built-and-how-we-measured-it-3g2j

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi