Три этапа обучения создают чат-бота
Создания трансформера недостаточно. Вы можете скормить ему весь интернет и потратить миллионы на вычислительные мощности, но в итоге все равно получите машину, которая не способна ответить на простой вопрос.
«Сырая» модель — это просто имитатор текста. Она предсказывает следующее слово на основе закономерностей. Если вы спросите её: «Как мне сбросить настройки роутера?», она может ответить встречными вопросами, например: «Как мне изменить пароль?». Она не понимает, что вам нужна помощь. Она лишь знает, как интернет продолжает предложения.
Чтобы превратить этот предсказатель в чат-бота, требуется три этапа обучения.
Предобучение (Двигатель) Вы показываете модели триллионы слов. Вы скрываете последнее слово и заставляете её угадать. Так формируются знания. Модель изучает факты, грамматику и логику. Это работает потому, что данные размечают сами себя. Масштабирование делает этот процесс предсказуемым. Больше данных и больше вычислительных мощностей ведут к лучшим результатам.
Тонкая настройка под инструкции (Сценарий) Базовая модель знает всё, но у неё нет цели. На этом этапе вы показываете ей несколько тысяч примеров, где промпт сопоставлен с хорошим ответом человека. Это не добавляет новых знаний, но обучает модель новому поведению. Вы буквально вручаете актеру сценарий. Она учится вести себя как полезный помощник, а не просто как инструмент для дополнения текста.
Настройка предпочтений (Манеры) Сценарии ограничены. Невозможно прописать правило для каждой ситуации. На этом этапе вы показываете модели два разных ответа и позволяете человеку выбрать лучший. Модель учится стремиться к высокому баллу, основываясь на человеческих предпочтениях. Это придает модели её тон, вежливость и границы безопасности.
Суть проста:
- Предобучение формирует знания.
- Тонкая настройка под инструкции выделяет помощника из толпы.
- Настройка предпочтений добавляет рассудительность и манеры.
Личность, которую вы видите в окне чата, — это лишь тонкий слой поверх «сырого» предсказателя слов. Для создания этого нам не понадобилась теория интеллекта. Нам понадобились простая цель, масштаб и два этапа обучения.
Optional learning community: https://t.me/GyaanSetuAi
