Чему меня научила быстрая LLM в вопросах допущений
Я в течение часа запускал дешевую и быструю LLM для выполнения сложной задачи. Она не потерпела неудачу.
Большинство людей считают, что слабые модели пасуют перед длительными задачами. Они теряют нить или сдаются на полпути. Но эта модель не сбилась с курса. Это произошло потому, что я предоставил ей список ожидаемых результатов.
Я думал, что эти результаты помогут повысить точность. Я ошибался.
Исследование показывает, что наличие списка результатов не делает модель более точной. Оно делает модель более проверяемой. Модель лучше документирует свою работу. Она оставляет доказательства, которые вы можете проверить.
В программном обеспечении существует два типа ошибок:
- Ошибки исполнения: перепутанная запятая или неучтенный граничный случай. Их исправляют с помощью тестов и линтинга.
- Ошибки допущений: установка границы не в том месте. Это исправить гораздо сложнее.
Процессы помогают бороться с ошибками исполнения. Они не решают проблему ошибок допущений. Если у вас и у модели одно и то же «слепое пятно», ваша проверка тоже окажется безрезультатной.
ИИ меняет математику этих ошибок.
Раньше человек совершал ошибки медленно. Это давало время их заметить. Теперь ИИ совершает ошибки быстро. Модель может три часа писать идеальный код, основываясь на одном неверном допущении, прежде чем вы это заметите.
Чем более способной кажется модель, тем больше вы ей доверяете. Вы позволяете ей работать дольше. Вы реже проверяете результат. Это ловушка. Неверное допущение не мигает предупреждающим сигналом. Оно выглядит как прогресс, пока не становится слишком поздно.
Индустрия пытается решить это усилением процессов. Мы добавляем больше спецификаций и планов. Но это лишь дополнительные накладные расходы. Это инструмент для контроля исполнения, примененный к проблеме допущений.
Нам нужно перестать измерять, как часто модель оказывается права. Нам нужно измерять, как долго неверное допущение живет до того, как мы его обнаружим.
В промышленной эксплуатации мы называем это MTTD: Mean Time To Detect.
Мы не можем предотвратить каждую ошибку. Мы можем только сделать исправление ошибок дешевле. Это достигается путем их раннего обнаружения.
Цель не только в том, чтобы найти более умную модель. Цель в том, чтобы решить, где вам все еще необходимо сохранять контроль.
Источник: https://dev.to/g_correa/what-a-fast-llm-taught-me-about-assumptions-oe
Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi
