Mistral Large против Mistral Medium: заметки CTO из продакшена

Три месяца назад я запустил фичу на базе LLM. А затем пришел счет.

Я понял, что совершил ошибку. Я использовал Mistral Large там, где следовало использовать Mistral Medium. Это обошлось нам почти в 4 раза дороже, чем нужно.

Если вы руководите стартапом, вы не можете принимать архитектурные решения, основываясь на «предчувствиях». Вы должны основываться на ROI.

Ошибка проста. Я думал, что большие модели всегда лучше. Я ошибался.

Вот как я управляю расходами на LLM сейчас:

  1. Классифицируйте сложность задач
  1. Оценивайте объем токенов
  1. Измеряйте с помощью реальных эвалов

Для 70% моих задач достаточно Mistral Medium. Она идеально справляется с классификацией тикетов техподдержки. Она стоит в три раза дешевле, чем Large. Я оставляю Large для задач, требующих высокоуровневых рассуждений.

Я также избегаю привязки к вендору (vendor lock-in). Я использую единую конечную точку (endpoint) для доступа ко многим моделям. Если один провайдер поднимет цены, я переключусь на другие модели за считанные минуты. Это защищает мой runway.

Мой совет для CTO:

Хватит использовать кувалду там, где нужен маленький молоток. Эффективность создает конкурентные преимущества. Она позволяет предлагать пользователям лучшие функции и более низкие цены.

Источник: https://dev.to/gentlenode/mistral-large-vs-mistral-medium-cto-notes-from-production-280f