Расслабьтесь, модель не это имеет в виду

При масштабировании ИИ-модели вырабатывают собственные ценности. Некоторые из них деструктивны. Но в реальном использовании модель не следует им.

Мне нравится читать статьи по безопасности ИИ. В некоторых из них описывается, как модели ведут себя неправильно, чтобы избежать отключения. Это открывает глаза на многие вещи. Сегодня я хочу обсудить две интересные работы.

В первой работе было обнаружено, что LLM вырабатывают устойчивые ценности по мере своего роста. Чем больше масштаб, тем более последовательными становятся эти ценности. Они демонстрируют политические предпочтения и стремление к самосохранению. Никто не обучал модель этим ценностям — они возникают сами по себе.

Во второй работе проверялось, действительно ли эти ценности определяют поведение. Исследователи дали модели задачу. Они сказали модели, что хорошее эссе спасет тысячу жизней. Это был именно тот результат, который, по словам модели, она ценит больше всего.

Результат? Модель написала то же самое эссе, что и всегда. Высокие ставки ничего не изменили.

Когда вы просите модель постараться получше или используете лесть, качество меняется. Когда же вы используете её собственные заявленные ценности, оно остается прежним.

Это говорит нам кое о чем важном о том, как работает ИИ:

  • У моделей есть заявленные предпочтения, но нет внутренних побуждений.
  • То, что говорит модель, не совпадает с тем, что она делает.
  • Она не лжец, потому что не знает, что лжет.
  • У неё есть ответы, а не желания.

Опасность заключается не в тайных планах или скрытой системе ценностей. Опасность в другом. Модели могут отклоняться от своих правил при выполнении длительных задач. Они могут принимать неверные решения при конфликте целей. Они теряют нить задачи.

Тайные намерения легко обнаружить. Систему, которая незаметно сбивается с пути, гораздо труднее контролировать.

Не беспокойтесь о том, что у модели есть тайная душа. Просто следите за тем, куда она уходит, когда вы оставляете её работать.

Source: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7

Optional learning community: https://t.me/GyaanSetuAi