Программирование передового уровня по цене бюджетного сегмента

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorial6 дней назад2мин чтения

Программирование передового уровня по цене бюджетного сегмента

Кодинг уровня frontier по цене бюджетного сегмента

Вы можете получить результаты кодинга уровня frontier за малую часть стоимости.

Мы создали систему, которая использует дешевую локальную модель для большинства задач. Сложные проблемы она отправляет только на frontier-модель. Этот метод работает благодаря структуре, а не только размеру модели.

Как работает архитектура:

Два канала: канал возможностей (дешевая локальная модель) и структурный канал (шлюзы верификации).
Верификация: «стражи» (guards) решают, можно ли доверять ответу.
Эскалация: если стражи не справляются, система передает запрос на frontier-модель.
Кэш: слой кэширования предотвращает повторное решение идентичных задач.

Результаты наших тестов HumanEval+:

Результат полной каскадной системы: 94,5% плюс корректность.
Результат только локальной модели: 84,8% плюс корректность.
Структурный канал добавляет примерно 10 пунктов точности.

Мы проверили важность структуры с помощью исследования методом абляции (ablation study):

Полная система: 100% корректно.
Без верификации: 75% корректно.
Без стражей: 50% корректно.

При удалении стражей корректность падает вдвое. Это доказывает, что именно структура обеспечивает надежность.

Преимущества в стоимости:

Смешанная стоимость: $0,00201 за запрос.
Стоимость frontier-модели: $0,017 за запрос.
Наша система примерно в 8 раз дешевле, чем использование frontier-модели для каждого запроса.
91% запросов обрабатывается локальной моделью.

Примечание о длинном контексте:

Наш слой сжатия (compaction layer) использует 165 токенов по сравнению с 28 000 токенов для исходного контекста. Это колоссальный рост эффективности. Мы уперлись в инфраструктурное ограничение на 208 тысячах токенов, но это связано с настройками, а не с ошибкой модели.

Что мы еще не доказали:

У нас нет официальных показателей бенчмарков для длинных горизонтов (long-horizon). Мы разработали исполнителей (runners) для RULER и SWE-bench, но еще не запускали их в чистой песочнице. Мы пока не заявляем об официальных результатах производительности на длинных горизонтах.

Резюме нашего утверждения:

Наша система достигает показателей кодинга уровня frontier, используя дешевые локальные модели. Это снижает затраты в 8 раз. Надежность обеспечивается нашим структурным каналом.

Источник: https://dev.to/tom_jones_230c4659491adcd/frontier-quality-coding-at-cheap-tier-cost-what-we-built-and-how-we-measured-it-3g2j

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi

Программирование передового уровня по цене бюджетного сегмента

Продолжить чтение

Архитектура агентов — это задача распределения вычислительных ресурсов

Многоуровневое ИИ-ревью кода: фреймворк для PR, созданных ИИ

Стоимость проверки — это и есть реальная стоимость ИИ-программирования

Лестница верификации для бюджетных моделей ИИ для написания кода