এআই (AI) সম্ভব করার তিনটি ধারণা

আধুনিক এআই জাদুর মতো মনে হয়। আপনি একটি বাক্য লিখছেন এবং একটি মেশিন তার উত্তর লিখছে। এটি অদ্ভুত মনে হতে পারে।

কিন্তু তা নয়।

আধুনিক এআই টিকে আছে কারণ প্রকৌশলীরা নির্দিষ্ট কিছু সমস্যার সমাধান করেছেন। তারা ত্রুটিপূর্ণ নেটওয়ার্ক খুঁজে পেয়েছেন এবং সেগুলো মেরামত করেছেন।

ট্রান্সফরমার (Transformer) তৈরির পেছনে থাকা তিনটি প্রকৌশলগত সমাধান নিচে দেওয়া হলো।

  1. Skip Connections

২০১৪ সালে, গবেষকরা নিউরাল নেটওয়ার্ককে আরও গভীর (deeper) করার চেষ্টা করেছিলেন। তারা ভেবেছিলেন বেশি লেয়ার মানেই আরও ভালো ফলাফল। কিন্তু তা ব্যর্থ হয়েছিল। গভীর নেটওয়ার্কগুলো আসলে আরও খারাপ পারফর্ম করছিল।

নেটওয়ার্ক প্রশিক্ষণের জন্য ব্যবহৃত এরর সিগন্যাল (error signal) অনেকগুলো লেয়ারের মধ্য দিয়ে যাওয়ার সময় হয় একেবারে শূন্য হয়ে যেত, অথবা অনেক বেড়ে যেত। ফলে শুরুর দিকের লেয়ারগুলো কোনো কার্যকর ফিডব্যাক পেত না।

সমাধানটি ছিল সহজ। প্রতিটি লেয়ারকে ইনপুট পরিবর্তন করতে বাধ্য না করে, ইনপুটকে সরাসরি পরের ধাপে চলে যেতে দেওয়া।

একটি ResNet ব্লকে, আপনি মূল ইনপুটকে আউটপুটের সাথে যোগ করে দেন। এটি সিগন্যাল চলাচলের জন্য একটি সরাসরি পথ তৈরি করে। এর ফলে আরও লেয়ার যোগ করলেও সিস্টেমটি আর ভেঙে পড়ে না। যদি কোনো লেয়ার সহায়ক না হয়, তবে এটি ইনপুটকে কোনো পরিবর্তন ছাড়াই সরাসরি পাস করে দিতে পারে।

  1. Normalization

ডেটা যখন একটি নেটওয়ার্কের মধ্য দিয়ে যায়, তখন সংখ্যাগুলো বিচ্যুত হতে থাকে। একটি লেয়ার হয়তো ০.০১ আউটপুট দিচ্ছে, আবার পরেরটি দিচ্ছে ৫০০০। যখন সংখ্যাগুলো এই চরম সীমায় পৌঁছে যায়, তখন শেখার প্রক্রিয়া (learning) থেমে যায়।

Normalization ভলিউম বা মানকে সামঞ্জস্যপূর্ণ করার মাধ্যমে এটি সমাধান করে। এটি সংখ্যাগুলোকে শূন্যের কাছাকাছি নিয়ে আসে এবং একটি নির্দিষ্ট সীমার মধ্যে স্কেল করে।

এটি গণিতকে স্থিতিশীল রাখে। এর ফলে আপনি উচ্চতর লার্নিং রেট (learning rates) ব্যবহার করতে পারেন এবং অনেক দ্রুত প্রশিক্ষণ দিতে পারেন। এটি একটি ব্যবহারিক সমাধান যা ডিবাগিংয়ের (debugging) অসংখ্য ঘণ্টা বাঁচায়।

  1. Attention

পুরনো মডেলগুলো একটির পর একটি শব্দ পড়ে টেক্সট প্রসেস করত। এটি ধীরগতির ছিল কারণ শব্দগুলোকে সমান্তরালভাবে (in parallel) প্রসেস করা যেত না। এটি ভুলে যাওয়ার প্রবণতাও দেখাত, কারণ বাক্যের শেষ প্রান্তে পৌঁছানোর আগেই মডেলটি বাক্যের শুরুটা ভুলে যেত।

Attention এটি বদলে দিয়েছে। ক্রমানুসারে পড়ার পরিবর্তে, একটি বাক্যের প্রতিটি শব্দ একসাথে অন্য প্রতিটি শব্দের দিকে নজর দেয়।

"it" শব্দটি তার বিশেষ্য বা noun-এর সাথে সরাসরি যুক্ত হতে পারে, সেটি যত দূরেই থাকুক না কেন। যেহেতু শব্দগুলো কোনো নির্দিষ্ট ক্রমের ওপর নির্ভর করে না, তাই আপনি GPU ব্যবহার করে সবকিছু একসাথে গণনা করতে পারেন।

Transformer এই তিনটি ধারণার সমন্বয় ঘটায়। এটি skip connections-এর মাধ্যমে মোড়ানো attention blocks ব্যবহার করে এবং মাঝখানে normalization ব্যবহার করে।

এআই-এর জন্য বুদ্ধিমত্তা বোঝার ক্ষেত্রে কোনো বিশাল যুগান্তকারী আবিষ্কারের প্রয়োজন ছিল না। বরং ত্রুটিপূর্ণ সিস্টেমগুলোর জন্য তিনটি বুদ্ধিদীপ্ত সমাধানের প্রয়োজন ছিল।

Source: https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

Optional learning community: https://t.me/GyaanSetuAi