Чого мене навчила швидка LLM щодо припущень

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 тижні тому2min read

Чого мене навчила швидка LLM щодо припущень

Я протягом години запускав дешеву, швидку LLM на складному завданні. Вона не провалилася.

Більшість людей вважають, що слабкі моделі не справляються з тривалими завданнями. Вони втрачають фокус або здаються на півдорозі. Але ця модель трималася курсу. Це сталося тому, що я надав їй список результатів виконання.

Я думав, що ці результати допоможуть із точністю. Я помилявся.

Дослідження показує, що результати виконання не роблять модель точнішою. Вони роблять модель більш верифікованою. Модель краще документує свою роботу. Вона залишає докази, які ви можете перевірити.

У програмному забезпеченні існує два типи помилок:

Помилки виконання: переплутана кома або пропущений граничний випадок. Ви виправляєте їх за допомогою тестів і лінтингу.
Помилки припущень: встановлення межі не в тому місці. Це набагато важче виправити.

Процеси допомагають із помилками виконання. Вони не вирішують помилки припущень. Якщо ви і модель маєте спільну «сліпу зону», ваша перевірка також провалиться.

ШІ змінює математику цих помилок.

Раніше людина робила помилки повільно. Це давало вам час їх помітити. Тепер ШІ робить помилки швидко. Модель може створювати три години ідеального коду на основі одного хибного припущення, перш ніж ви це помітите.

Чим здібнішою здається модель, тим більше ви їй довіряєте. Ви дозволяєте їй працювати довше. Ви перестаєте перевіряти її так часто. Це пастка. Хибне припущення не блимає попереджувальним сигналом. Воно виглядає як прогрес, поки не стає занадто пізно.

Індустрія намагається виправити це за допомогою розширення процесів. Ми додаємо більше специфікацій і планів. Це лише додаткові накладні витрати. Це інструмент виконання для проблеми припущень.

Нам потрібно припинити вимірювати, як часто модель буває правою. Нам потрібно вимірювати, як довго хибне припущення живе до того, як ми його виявимо.

У продакшені ми називаємо це MTTD: Mean Time To Detect.

Ми не можемо зупинити кожну помилку. Ми можемо лише зробити виправлення помилок дешевшим. Ви робите це, виявляючи їх на ранніх етапах.

Мета полягає не лише в тому, щоб знайти розумнішу модель. Мета полягає в тому, щоб вирішити, де ви все ще повинні залишатися тим, хто контролює ситуацію.

Джерело: https://dev.to/g_correa/what-a-fast-llm-taught-me-about-assumptions-oe

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi

Чого мене навчила швидка LLM щодо припущень

Continue reading

Вашій команді не потрібна краща модель ШІ цього тижня

Оцінка якості відповідей LLM у продакшені

Я створив сканер безпеки на базі ШІ — а потім знайшов баг у власному детекторі

Я створив сканер безпеки на базі ШІ — а потім знайшов баг у власному детекторі