𝗧𝗵𝗿𝗲𝗲 𝗜𝗱𝗲𝗮𝘀 𝗧𝗵𝗮𝘁 𝗠𝗮𝗱𝗲 𝗔𝗜 𝗣𝗼𝘀𝘀𝗶𝗯𝗹𝗲

Translated for your language. Read the original.

AI-assisted draft.

Три ідеї, які зробили ШІ можливим

Сучасний ШІ виглядає як магія. Ви вводите речення, а машина відповідає. Це здається чимось екзотичним.

Але це не так.

Сучасний ШІ існує завдяки тому, що інженери вирішили конкретні проблеми. Вони знаходили «зламані» мережі та виправляли їх.

Ось три інженерні рішення, які створили Transformer.

Skip Connections

У 2014 році дослідники намагалися зробити нейронні мережі глибшими. Вони вважали, що більше шарів означає кращі результати. Це не спрацювало. Глибші мережі насправді працювали гірше.

Сигнал помилки, що використовується для навчання мережі, зникав до нуля або неконтрольовано зростав під час проходження крізь багато шарів. Ранні шари не отримували жодного корисного зворотного зв'язку.

Рішення було простим. Замість того, щоб змушувати кожен шар змінювати вхідні дані, дозвольте вхідним даним «перестрибувати» вперед.

У блоці ResNet ви додаєте початкові вхідні дані до вихідних. Це створює прямий шлях для проходження сигналу. Додавання більшої кількості шарів більше не ламає систему. Якщо шар не є корисним, він може просто пропустити вхідні дані без змін.

Normalization

Коли дані проходять крізь мережу, числа «дрейфують». Один шар може видати 0.01, тоді як наступний — 5000. Коли числа досягають таких екстремальних значень, навчання зупиняється.

Normalization виправляє це, вирівнюючи масштаби. Вона повторно центрує числа навколо нуля та масштабує їх до стабільного діапазону.

Це підтримує стабільність математичних обчислень. Це дозволяє використовувати вищу швидкість навчання (learning rate) і тренуватися набагато швидше. Це практичне рішення, яке економить незліченні години налагодження.

Attention

Старі моделі читали текст по одному слову за раз. Це було повільно, оскільки неможливо було обробляти слова паралельно. Також вони були «забудькуватими», бо модель втрачала початок речення до того, як доходила до його кінця.

Attention змінює це. Замість послідовного читання, кожне слово одночасно «дивиться» на всі інші слова в реченні.

Слово "it" може бути безпосередньо пов'язане зі своїм іменником, незалежно від того, наскільки далеко він знаходиться. Оскільки слова не залежать від послідовності, ви можете обчислювати все одночасно за допомогою GPU.

Transformer поєднує всі три елементи. Він використовує блоки attention, обгорнуті в skip connections, з normalization між ними.

ШІ не потребує прориву в розумінні інтелекту. Йому знадобилися три розумні виправлення для зламаних систем.

Source: https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

Optional learning community: https://t.me/GyaanSetuAi

𝗧𝗵𝗿𝗲𝗲 𝗜𝗱𝗲𝗮𝘀 𝗧𝗵𝗮𝘁 𝗠𝗮𝗱𝗲 𝗔𝗜 𝗣𝗼𝘀𝘀𝗶𝗯𝗹𝗲

Continue reading

Як працюють трансформери

Три ідеї, які зробили сучасний ШІ можливим

𝗦𝘁𝗼𝗽 𝗧𝗲𝗹𝗹𝗶𝗻𝗴 𝗬𝗼𝘂𝗿 𝗔𝗜 𝘁𝗼 𝗯𝗲 𝗰𝗮𝗿𝗲𝗳𝘂𝗹