Mistral Large против Mistral Medium: заметки CTO из продакшена
Три месяца назад я запустил фичу на базе LLM. А затем пришел счет.
Я понял, что совершил ошибку. Я использовал Mistral Large там, где следовало использовать Mistral Medium. Это обошлось нам почти в 4 раза дороже, чем нужно.
Если вы руководите стартапом, вы не можете принимать архитектурные решения, основываясь на «предчувствиях». Вы должны основываться на ROI.
Ошибка проста. Я думал, что большие модели всегда лучше. Я ошибался.
Вот как я управляю расходами на LLM сейчас:
- Классифицируйте сложность задач
- Используйте меньшие модели для простой классификации или извлечения данных.
- Используйте большие модели только для многошаговых рассуждений.
- Оценивайте объем токенов
- Изучайте логи.
- Прогнозируйте рост.
- Считайте всё до того, как развертывать решение.
- Измеряйте с помощью реальных эвалов
- Не полагайтесь на интуицию.
- Прогоняйте тестовые наборы через обе модели.
- Сравнивайте метрики, важные для вашего продукта.
Для 70% моих задач достаточно Mistral Medium. Она идеально справляется с классификацией тикетов техподдержки. Она стоит в три раза дешевле, чем Large. Я оставляю Large для задач, требующих высокоуровневых рассуждений.
Я также избегаю привязки к вендору (vendor lock-in). Я использую единую конечную точку (endpoint) для доступа ко многим моделям. Если один провайдер поднимет цены, я переключусь на другие модели за считанные минуты. Это защищает мой runway.
Мой совет для CTO:
- Агрессивно кэшируйте данные, чтобы сократить расходы.
- Используйте стриминг ответов для улучшения пользовательского опыта.
- Создавайте логику отката (fallback), чтобы ваша система оставалась в сети.
- Выбирайте модель до того, как начнете оптимизировать промпт.
- Проверяйте требования к контекстному окну для каждой задачи.
Хватит использовать кувалду там, где нужен маленький молоток. Эффективность создает конкурентные преимущества. Она позволяет предлагать пользователям лучшие функции и более низкие цены.
Источник: https://dev.to/gentlenode/mistral-large-vs-mistral-medium-cto-notes-from-production-280f