𝗠𝗶𝘀𝘁𝗿𝗮𝗹 𝗟𝗮𝗿𝗴𝗲 𝘃𝘀 𝗠𝗶𝘀𝘁𝗿𝗮𝗹 𝗠𝗲𝗱𝗶𝘂𝗺: 𝗖𝗧𝗢 𝗡𝗼𝘁𝗲𝘀 𝗙𝗿𝗼𝗺 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

📅3 hours ago⏱1 min read

Mistral Large против Mistral Medium: заметки CTO из продакшена

Три месяца назад я запустил фичу на базе LLM. А затем пришел счет.

Я понял, что совершил ошибку. Я использовал Mistral Large там, где следовало использовать Mistral Medium. Это обошлось нам почти в 4 раза дороже, чем нужно.

Если вы руководите стартапом, вы не можете принимать архитектурные решения, основываясь на «предчувствиях». Вы должны основываться на ROI.

Ошибка проста. Я думал, что большие модели всегда лучше. Я ошибался.

Вот как я управляю расходами на LLM сейчас:

Классифицируйте сложность задач

Используйте меньшие модели для простой классификации или извлечения данных.
Используйте большие модели только для многошаговых рассуждений.

Оценивайте объем токенов

Изучайте логи.
Прогнозируйте рост.
Считайте всё до того, как развертывать решение.

Измеряйте с помощью реальных эвалов

Не полагайтесь на интуицию.
Прогоняйте тестовые наборы через обе модели.
Сравнивайте метрики, важные для вашего продукта.

Для 70% моих задач достаточно Mistral Medium. Она идеально справляется с классификацией тикетов техподдержки. Она стоит в три раза дешевле, чем Large. Я оставляю Large для задач, требующих высокоуровневых рассуждений.

Я также избегаю привязки к вендору (vendor lock-in). Я использую единую конечную точку (endpoint) для доступа ко многим моделям. Если один провайдер поднимет цены, я переключусь на другие модели за считанные минуты. Это защищает мой runway.

Мой совет для CTO:

Агрессивно кэшируйте данные, чтобы сократить расходы.
Используйте стриминг ответов для улучшения пользовательского опыта.
Создавайте логику отката (fallback), чтобы ваша система оставалась в сети.
Выбирайте модель до того, как начнете оптимизировать промпт.
Проверяйте требования к контекстному окну для каждой задачи.

Хватит использовать кувалду там, где нужен маленький молоток. Эффективность создает конкурентные преимущества. Она позволяет предлагать пользователям лучшие функции и более низкие цены.

Источник: https://dev.to/gentlenode/mistral-large-vs-mistral-medium-cto-notes-from-production-280f

𝗠𝗶𝘀𝘁𝗿𝗮𝗹 𝗟𝗮𝗿𝗴𝗲 𝘃𝘀 𝗠𝗶𝘀𝘁𝗿𝗮𝗹 𝗠𝗲𝗱𝗶𝘂𝗺: 𝗖𝗧𝗢 𝗡𝗼𝘁𝗲𝘀 𝗙𝗿𝗼𝗺 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

Continue reading

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

Управление облачными затратами vs Оптимизация

Я дообучил LLM, а затем сказал «нет»

На пути к эффективному обслуживанию LLM

MVP против MLP: как выбрать правильную стратегию запуска