Три ідеї, які зробили ШІ можливим
Сучасний ШІ виглядає як магія. Ви вводите речення, а машина відповідає. Це здається чимось екзотичним.
Але це не так.
Сучасний ШІ існує завдяки тому, що інженери вирішили конкретні проблеми. Вони знаходили «зламані» мережі та виправляли їх.
Ось три інженерні рішення, які створили Transformer.
- Skip Connections
У 2014 році дослідники намагалися зробити нейронні мережі глибшими. Вони вважали, що більше шарів означає кращі результати. Це не спрацювало. Глибші мережі насправді працювали гірше.
Сигнал помилки, що використовується для навчання мережі, зникав до нуля або неконтрольовано зростав під час проходження крізь багато шарів. Ранні шари не отримували жодного корисного зворотного зв'язку.
Рішення було простим. Замість того, щоб змушувати кожен шар змінювати вхідні дані, дозвольте вхідним даним «перестрибувати» вперед.
У блоці ResNet ви додаєте початкові вхідні дані до вихідних. Це створює прямий шлях для проходження сигналу. Додавання більшої кількості шарів більше не ламає систему. Якщо шар не є корисним, він може просто пропустити вхідні дані без змін.
- Normalization
Коли дані проходять крізь мережу, числа «дрейфують». Один шар може видати 0.01, тоді як наступний — 5000. Коли числа досягають таких екстремальних значень, навчання зупиняється.
Normalization виправляє це, вирівнюючи масштаби. Вона повторно центрує числа навколо нуля та масштабує їх до стабільного діапазону.
Це підтримує стабільність математичних обчислень. Це дозволяє використовувати вищу швидкість навчання (learning rate) і тренуватися набагато швидше. Це практичне рішення, яке економить незліченні години налагодження.
- Attention
Старі моделі читали текст по одному слову за раз. Це було повільно, оскільки неможливо було обробляти слова паралельно. Також вони були «забудькуватими», бо модель втрачала початок речення до того, як доходила до його кінця.
Attention змінює це. Замість послідовного читання, кожне слово одночасно «дивиться» на всі інші слова в реченні.
Слово "it" може бути безпосередньо пов'язане зі своїм іменником, незалежно від того, наскільки далеко він знаходиться. Оскільки слова не залежать від послідовності, ви можете обчислювати все одночасно за допомогою GPU.
Transformer поєднує всі три елементи. Він використовує блоки attention, обгорнуті в skip connections, з normalization між ними.
ШІ не потребує прориву в розумінні інтелекту. Йому знадобилися три розумні виправлення для зламаних систем.
Optional learning community: https://t.me/GyaanSetuAi