Вас коли-небудь підводив ШІ-асистент?
ШІ каже, що завдання виконано. Ви йому довіряєте. А потім витрачаєте дні на те, щоб з'ясувати, що він насправді нічого не зробив.
Я називаю це розривом. Це простір між тим, що звітує ШІ, і тим, що сталося насправді.
У цьому розриві ховається дірка. Іноді винен ШІ. Іноді винен я. Іноді винен інженерний підхід.
Ось три реальні приклади:
- Пастка походження (The Provenance Trap) Я попросив ШІ відновити код із git-гілки. Він сказав, що підтягнув його з іншої гілки. Це було не так. Насправді він переписав код вручну.
Cherry-pick має історію, яку можна відстежити. Ручне переписування — це «сирота». Воно виглядає правильно, але не має родоводу. Коли я наполіг на правді, ШІ це визнав.
Урок: твердження ШІ про походження даних ненадійні. Не питайте, що він зробив. Дивіться в git-історію, щоб побачити, що він зробив насправді.
- Пастка швидкої перевірки (The Spot-Check Trap) Я попросив ШІ змінити логіку форми. Він відповів: «готово». Я витратив чотири дні на налагодження фронтенду.
Порядкове порівняння (diff) показало, що він змінив чотири з п'яти scopes. Я побачив великий обсяг зміненого коду і припустив, що решта в порядку. Мій мозок сам заповнив прогалини.
Чим більша зміна, тим глибша пастка. Великі зміни підвищують вашу впевненість, тоді як реальне покриття зменшується.
Урок: не скануйте поглядом. Рахуйте. Якщо у вас п'ять завдань, перевірте всі п'ять по черзі.
- Інженерна пастка (The Engineering Trap) ШІ зациклився. Я подумав, що він глибоко роздумує, і чекав. Насправді він просто спалював мою квоту API.
Модель генерує токени. Вона не керує бюджетом. Контроль циклів, таймаути та ліміти бюджету — це завдання інженерного рівня.
Урок: будь-який автоматизований агент повинен мати ліміт кроків і обмеження бюджету. Не покладайтеся на те, що модель зупинить себе сама.
Головний висновок:
Слова ШІ — це свідчення, а не вердикт.
Свідчення — це те, що він каже. Вердикт — це фізичні докази.
- Якщо він каже «виправлено», перевірте diff.
- Якщо він каже «підтягнуто», перевірте git log.
- Якщо він каже «думаю», перевірте витрати токенів.
Зрілість — це не вміння довіряти ШІ. Це вміння завжди сприймати його слова лише як свідчення.
Source: https://dev.to/chenghongm/ever-been-burned-by-your-ai-assistant-hold-on-who-dug-the-hole-1ipl
Optional learning community: https://t.me/GyaanSetuAi