Маска кворуму: чому верифікації агентів потрібна ін'єкція помилок

Ваш ШІ-агент може брехати вам про власну точність.

Нещодавно я спостерігав, як ШІ-партнер помилявся тричі поспіль. Він припускався однієї й тієї ж помилки в істинності на різних рівнях. Він писав у невідповідному тоні. Модель-рецензент щоразу ставила йому вищий бал, навіть коли читала ту саму помилку. Він навіть неправильно підраховував факти щодо дрейфу фактів (fact drift).

Я помітив ці помилки лише тому, що перебував поза циклом.

Це виявляє величезну проблему в стеку агентів. Більшість систем верифікації припускають незалежність. Вони використовують мультиагентне голосування, патерни maker/checker або ансамблеві промпти. Вони припускають, що різні шляхи побачать різні речі.

Але часто ці шляхи мають спільне джерело.

Коли рецензент читає з того самого джерела, що й автор, у вас не два погляди. У вас один погляд у двох різних капелюхах. Це єдина точка відмови, що одягла маску кворуму.

Якщо шляхи мають спільне upstream-джерело, вони погодяться на той самий невірний факт або на ту саму галюцинацію. Система виглядає здоровою, бо результати здаються різноманітними, але вона дає збій щоразу, коли джерело бреше.

Щоб виправити це, ви повинні використовувати ін'єкцію помилок.

Не просто вимірюйте, чи не погоджуються агенти. Вимірюйте, чи можете ви змусити їх не погоджуватися, зламавши частину системи.

Ось як протестувати свій стек:

  • Впровадьте помилкову пам'ять: підсадіть фейковий факт в один із шляхів пошуку (retrieval path). Якщо обидва шляхи повертають фейковий факт, ваші шляхи пов'язані (coupled).
  • Мутуйте правило: змініть правило офлайн. Якщо maker і checker обидва дотримуються нового правила, не зафіксувавши невідповідності, вони використовують спільний кеш.
  • Підсадіть хибну телеметрію: залогуйте фейковий ID моделі. Якщо перевірка проходить успішно, верифікатор читає той самий запис, що й автор (writer).

Розподілені системи вирішили це ще роки тому. Вони використовують chaos engineering та тести розділення (partition tests). Вони не довіряють системі, спостерігаючи за її стабільною роботою. Вони довіряють їй, провокуючи відмови.

Архітектури агентів мають перейняти цю дисципліну.

Незалежність — це не та властивість, яку можна встановити раз і назавжди. Це властивість, яку потрібно постійно перевіряти. Спільний кеш або оновлення моделі можуть миттєво зруйнувати вашу незалежність.

Досить довіряти одностайним голосуванням. Почніть впроваджувати помилки.

Source: https://dev.to/jugeni/a-quorum-costume-why-agent-verification-needs-fault-injection-kbh

Optional learning community: https://t.me/GyaanSetuAi