Три ідеї, які зробили сучасний ШІ можливим
Сучасний ШІ здається магією. Ви вводите речення, а машина пише відповідь. Це здається чимось екзотичним. Але це не так.
Архітектура майже кожної моделі ґрунтується на звичайних інженерних рішеннях. Ці рішення вирішили конкретні проблеми. Тут немає ніякої «секретної інгредієнта». Є лише три ключові виправлення.
- Skip Connections
Близько 2014 року інженери намагалися зробити нейронні мережі глибшими. Вони вважали, що більше шарів означає кращі результати. Вони помилялися. Глибші мережі часто працювали гірше, тому що сигнал помилки не міг дістатися до початкових шарів. Сигнал або зникав до нуля, або вибухав.
Skip connections вирішили цю проблему. Замість того, щоб змушувати кожен шар змінювати вхідні дані, ви дозволяєте входу «перестрибувати» вперед. Ви додаєте початковий вхід назад до виходу.
Це робить дві речі:
- Це полегшує принцип «нічого не робити». Якщо шар не додає цінності, вхідні дані проходять крізь нього без змін.
- Це створює прямий шлях для сигналу помилки. Сигнал отримує «експрес-лінію» до початкових шарів.
- Normalization
Коли дані проходять крізь мережу, масштаб чисел змінюється. Один шар може видати 0,01, тоді як наступний — 5000. Коли числа досягають таких екстремальних значень, навчання зупиняється.
Normalization вирівнює масштаб. Вона повторно центрує числа навколо нуля та підтримує їх у стабільному діапазоні. Це дозволяє використовувати вищу швидкість навчання і тренуватися набагато швидше. Це дозволяє математичним обчисленням працювати коректно.
- Attention
Старі моделі читали текст по одному слову за раз. Це було повільно і призводило до «забування». Щоб пов'язати перше слово з останнім, інформація мала пройти крізь кожне слово між ними. До кінця початок втрачався.
Attention змінює це. Замість того, щоб читати послідовно, кожне слово одночасно «дивиться» на всі інші слова в реченні. Слово "it" може дивитися безпосередньо на свій іменник, незалежно від того, як далеко він знаходиться.
Оскільки ніщо не залежить від конкретного порядку, ви можете обробляти все одночасно. Це робить навчання швидким і ефективним.
Transformer — це результат поєднання цих трьох ідей. Він використовує блоки attention, обгорнуті в skip connections, з нормалізацією між ними.
ШІ — це не чаклунство. Це результат того, що люди помітили поломку і виправили її за допомогою простої математики.
Optional learning community: https://t.me/GyaanSetuAi