سه ایدهای که هوش مصنوعی را ممکن ساختند
هوش مصنوعی مدرن شبیه جادو به نظر میرسد. شما یک جمله تایپ میکنید و ماشین در پاسخ مینویسد. این حس عجیبی دارد.
اما اینطور نیست.
هوش مصنوعی مدرن به این دلیل وجود دارد که مهندسان مشکلات خاصی را حل کردهاند. آنها شبکههای معیوب را پیدا کردند و آنها را اصلاح کردند.
در اینجا سه اصلاح مهندسی که Transformer را ساختند، آورده شده است.
۱. اتصالات میانبر (Skip Connections)
در سال ۲۰۱۴، محققان سعی کردند شبکههای عصبی را عمیقتر کنند. آنها فکر میکردند لایههای بیشتر به معنای نتایج بهتر است. اما این ایده شکست خورد. شبکههای عمیقتر در واقع عملکرد ضعیفتری داشتند.
سیگنال خطا که برای آموزش شبکه استفاده میشود، هنگام عبور از لایههای متعدد، یا به صفر میل میکرد یا به شدت بزرگ میشد. لایههای اولیه هیچ بازخورد مفیدی دریافت نمیکردند.
راه حل ساده بود. به جای اینکه هر لایه را مجبور به تغییر ورودی کنید، اجازه دهید ورودی از روی لایه عبور کند.
در یک بلوک ResNet، شما ورودی اصلی را دوباره به خروجی اضافه میکنید. این کار یک مسیر مستقیم برای حرکت سیگنال ایجاد میکند. اضافه کردن لایههای بیشتر دیگر سیستم را از کار نمیاندازد. اگر لایهای مفید نباشد، میتواند به سادگی ورودی را بدون تغییر عبور دهد.
۲. نرمالسازی (Normalization)
همانطور که دادهها از یک شبکه عبور میکنند، اعداد دچار تغییر (drift) میشوند. ممکن است یک لایه خروجی ۰.۰۱ داشته باشد در حالی که لایه بعدی ۵۰۰۰ را خروجی دهد. وقتی اعداد به این حد افراطی میرسند، یادگیری متوقف میشود.
نرمالسازی با متعادل کردن مقادیر، این مشکل را حل میکند. این کار اعداد را دوباره حول محور صفر متمرکز کرده و آنها را در یک محدوده ثابت مقیاسبندی میکند.
این کار ریاضیات را پایدار نگه میدارد. این کار به شما اجازه میدهد از نرخهای یادگیری (learning rates) بالاتر استفاده کنید و بسیار سریعتر آموزش ببینید. این یک راه حل کاربردی است که ساعتهای بیشماری از عیبیابی (debugging) را ذخیره میکند.
۳. توجه (Attention)
مدلهای قدیمی متن را کلمه به کلمه میخواندند. این کار کند بود زیرا نمیشد کلمات را به صورت موازی پردازش کرد. همچنین این مدلها فراموشکار بودند، زیرا وقتی به انتهای جمله میرسیدند، ابتدای جمله را از یاد میبردند.
مکانیزم Attention این وضعیت را تغییر میدهد. به جای خواندن به ترتیب، هر کلمه در یک جمله، همزمان به تمام کلمات دیگر نگاه میکند.
کلمه "it" میتواند مستقیماً به اسم خود مرتبط شود، بدون توجه به اینکه چقدر از آن فاصله دارد. از آنجایی که کلمات به یک توالی (sequence) وابسته نیستند، میتوانید همه چیز را به طور همزمان با استفاده از یک GPU محاسبه کنید.
Transformer هر سه مورد را با هم ترکیب میکند. این مدل از بلوکهای attention استفاده میکند که در اتصالات میانبر (skip connections) قرار گرفتهاند و بین آنها از نرمالسازی استفاده شده است.
هوش مصنوعی نیازی به یک پیشرفت بزرگ در درک هوش ندارد. بلکه به سه اصلاح هوشمندانه برای سیستمهای معیوب نیاز داشت.
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi