Мы перестали доверять моделям. А затем перестали доверять собственным цифрам.

Я перестал гнаться за более совершенными моделями ИИ. Я думал, что более мощная модель исправит мою систему. Но это не помогло. Проблема была не в модели. Проблема была в системе.

Затем я осознал кое-что похуже. Я не мог доверять даже собственным измерениям.

Я столкнулся с тремя видами сбоев:

  • Набор тестов, который проходил успешно, измеряя не ту среду.
  • Шлюз, который блокировал работу, но выдавал неверную статистику.
  • Агент, который сообщал неверное количество.

Каждый сбой выглядел как успех, пока я не присмотрелся внимательнее. Мои инструменты верификации лгали мне.

Моим первым инстинктом было запретить любую неопределенность. Я хотел устранить каждый вероятностный элемент. Я хотел, чтобы всё было детерминированным.

Это было ошибкой.

Если вы уберете всю неопределенность, вы уберете ценность ИИ. ИИ предназначен для того, чтобы предлагать идеи и искать способы решения проблем. Вы не получите этого от жесткого правила.

Решение не в том, чтобы запретить неопределенность. Решение в том, чтобы правильно её распределить.

Системе нужны две разные роли:

  1. Роль предлагающего (The Proposing Seat) Эта роль исследует и предлагает. Ей необходим недетерминизм. Если модель предложит неверное решение, цена ошибки будет низкой, так как она еще ничего не решила.

  2. Роль судящего (The Judging Seat) Эта роль решает, пройден ли тест или соблюдено ли правило. Эта роль должна быть детерминированной. Она должна быть воспроизводимой и проверяемой.

Сбои в моей системе происходили потому, что я ставил не те элементы в роль судящего. Я позволял неопределенным процессам принимать окончательные решения.

Правило простое:

  • Пусть неопределенные части исследуют.
  • Пусть детерминированные части судят.

Не пытайтесь сделать всю систему определенной. Вместо этого убедитесь, что ваши «судьи» надежны. Ошибочный детерминированный судья опаснее вероятностного. Ошибочный судья создает устойчивую ошибку, которую вы со временем перестаете подвергать сомнению.

Каждый уровень, который внушает вам доверие, должен быть сначала измерен. Это измерение должно опираться на что-то детерминированное, что вы можете проверить.

Как вы проводите грань между предложением и суждением в своих ИИ-системах? В каких местах вы настаиваете на детерминизме?

Source: https://dev.to/josephyeo/we-stopped-trusting-models-then-we-stopped-trusting-our-own-numbers-1611

Optional learning community: https://t.me/GyaanSetuAi