سه ایده‌ای که هوش مصنوعی را ممکن ساختند

هوش مصنوعی مدرن شبیه جادو به نظر می‌رسد. شما یک جمله تایپ می‌کنید و ماشین در پاسخ می‌نویسد. این حس عجیبی دارد.

اما این‌طور نیست.

هوش مصنوعی مدرن به این دلیل وجود دارد که مهندسان مشکلات خاصی را حل کرده‌اند. آن‌ها شبکه‌های معیوب را پیدا کردند و آن‌ها را اصلاح کردند.

در اینجا سه اصلاح مهندسی که Transformer را ساختند، آورده شده است.

۱. اتصالات میان‌بر (Skip Connections)

در سال ۲۰۱۴، محققان سعی کردند شبکه‌های عصبی را عمیق‌تر کنند. آن‌ها فکر می‌کردند لایه‌های بیشتر به معنای نتایج بهتر است. اما این ایده شکست خورد. شبکه‌های عمیق‌تر در واقع عملکرد ضعیف‌تری داشتند.

سیگنال خطا که برای آموزش شبکه استفاده می‌شود، هنگام عبور از لایه‌های متعدد، یا به صفر میل می‌کرد یا به شدت بزرگ می‌شد. لایه‌های اولیه هیچ بازخورد مفیدی دریافت نمی‌کردند.

راه حل ساده بود. به جای اینکه هر لایه را مجبور به تغییر ورودی کنید، اجازه دهید ورودی از روی لایه عبور کند.

در یک بلوک ResNet، شما ورودی اصلی را دوباره به خروجی اضافه می‌کنید. این کار یک مسیر مستقیم برای حرکت سیگنال ایجاد می‌کند. اضافه کردن لایه‌های بیشتر دیگر سیستم را از کار نمی‌اندازد. اگر لایه‌ای مفید نباشد، می‌تواند به سادگی ورودی را بدون تغییر عبور دهد.

۲. نرمال‌سازی (Normalization)

همان‌طور که داده‌ها از یک شبکه عبور می‌کنند، اعداد دچار تغییر (drift) می‌شوند. ممکن است یک لایه خروجی ۰.۰۱ داشته باشد در حالی که لایه بعدی ۵۰۰۰ را خروجی دهد. وقتی اعداد به این حد افراطی می‌رسند، یادگیری متوقف می‌شود.

نرمال‌سازی با متعادل کردن مقادیر، این مشکل را حل می‌کند. این کار اعداد را دوباره حول محور صفر متمرکز کرده و آن‌ها را در یک محدوده ثابت مقیاس‌بندی می‌کند.

این کار ریاضیات را پایدار نگه می‌دارد. این کار به شما اجازه می‌دهد از نرخ‌های یادگیری (learning rates) بالاتر استفاده کنید و بسیار سریع‌تر آموزش ببینید. این یک راه حل کاربردی است که ساعت‌های بی‌شماری از عیب‌یابی (debugging) را ذخیره می‌کند.

۳. توجه (Attention)

مدل‌های قدیمی متن را کلمه به کلمه می‌خواندند. این کار کند بود زیرا نمی‌شد کلمات را به صورت موازی پردازش کرد. همچنین این مدل‌ها فراموش‌کار بودند، زیرا وقتی به انتهای جمله می‌رسیدند، ابتدای جمله را از یاد می‌بردند.

مکانیزم Attention این وضعیت را تغییر می‌دهد. به جای خواندن به ترتیب، هر کلمه در یک جمله، همزمان به تمام کلمات دیگر نگاه می‌کند.

کلمه "it" می‌تواند مستقیماً به اسم خود مرتبط شود، بدون توجه به اینکه چقدر از آن فاصله دارد. از آنجایی که کلمات به یک توالی (sequence) وابسته نیستند، می‌توانید همه چیز را به طور همزمان با استفاده از یک GPU محاسبه کنید.

Transformer هر سه مورد را با هم ترکیب می‌کند. این مدل از بلوک‌های attention استفاده می‌کند که در اتصالات میان‌بر (skip connections) قرار گرفته‌اند و بین آن‌ها از نرمال‌سازی استفاده شده است.

هوش مصنوعی نیازی به یک پیشرفت بزرگ در درک هوش ندارد. بلکه به سه اصلاح هوشمندانه برای سیستم‌های معیوب نیاز داشت.

منبع: https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi