তিনটি ধারণা যা এআই-কে সম্ভব করে তুলেছে

Translated for your language. Read the original.

AI-assisted draft.

এআই (AI) সম্ভব করার তিনটি ধারণা

আধুনিক এআই জাদুর মতো মনে হয়। আপনি একটি বাক্য লিখছেন এবং একটি মেশিন তার উত্তর লিখছে। এটি অদ্ভুত মনে হতে পারে।

কিন্তু তা নয়।

আধুনিক এআই টিকে আছে কারণ প্রকৌশলীরা নির্দিষ্ট কিছু সমস্যার সমাধান করেছেন। তারা ত্রুটিপূর্ণ নেটওয়ার্ক খুঁজে পেয়েছেন এবং সেগুলো মেরামত করেছেন।

ট্রান্সফরমার (Transformer) তৈরির পেছনে থাকা তিনটি প্রকৌশলগত সমাধান নিচে দেওয়া হলো।

Skip Connections

২০১৪ সালে, গবেষকরা নিউরাল নেটওয়ার্ককে আরও গভীর (deeper) করার চেষ্টা করেছিলেন। তারা ভেবেছিলেন বেশি লেয়ার মানেই আরও ভালো ফলাফল। কিন্তু তা ব্যর্থ হয়েছিল। গভীর নেটওয়ার্কগুলো আসলে আরও খারাপ পারফর্ম করছিল।

নেটওয়ার্ক প্রশিক্ষণের জন্য ব্যবহৃত এরর সিগন্যাল (error signal) অনেকগুলো লেয়ারের মধ্য দিয়ে যাওয়ার সময় হয় একেবারে শূন্য হয়ে যেত, অথবা অনেক বেড়ে যেত। ফলে শুরুর দিকের লেয়ারগুলো কোনো কার্যকর ফিডব্যাক পেত না।

সমাধানটি ছিল সহজ। প্রতিটি লেয়ারকে ইনপুট পরিবর্তন করতে বাধ্য না করে, ইনপুটকে সরাসরি পরের ধাপে চলে যেতে দেওয়া।

একটি ResNet ব্লকে, আপনি মূল ইনপুটকে আউটপুটের সাথে যোগ করে দেন। এটি সিগন্যাল চলাচলের জন্য একটি সরাসরি পথ তৈরি করে। এর ফলে আরও লেয়ার যোগ করলেও সিস্টেমটি আর ভেঙে পড়ে না। যদি কোনো লেয়ার সহায়ক না হয়, তবে এটি ইনপুটকে কোনো পরিবর্তন ছাড়াই সরাসরি পাস করে দিতে পারে।

Normalization

ডেটা যখন একটি নেটওয়ার্কের মধ্য দিয়ে যায়, তখন সংখ্যাগুলো বিচ্যুত হতে থাকে। একটি লেয়ার হয়তো ০.০১ আউটপুট দিচ্ছে, আবার পরেরটি দিচ্ছে ৫০০০। যখন সংখ্যাগুলো এই চরম সীমায় পৌঁছে যায়, তখন শেখার প্রক্রিয়া (learning) থেমে যায়।

Normalization ভলিউম বা মানকে সামঞ্জস্যপূর্ণ করার মাধ্যমে এটি সমাধান করে। এটি সংখ্যাগুলোকে শূন্যের কাছাকাছি নিয়ে আসে এবং একটি নির্দিষ্ট সীমার মধ্যে স্কেল করে।

এটি গণিতকে স্থিতিশীল রাখে। এর ফলে আপনি উচ্চতর লার্নিং রেট (learning rates) ব্যবহার করতে পারেন এবং অনেক দ্রুত প্রশিক্ষণ দিতে পারেন। এটি একটি ব্যবহারিক সমাধান যা ডিবাগিংয়ের (debugging) অসংখ্য ঘণ্টা বাঁচায়।

Attention

পুরনো মডেলগুলো একটির পর একটি শব্দ পড়ে টেক্সট প্রসেস করত। এটি ধীরগতির ছিল কারণ শব্দগুলোকে সমান্তরালভাবে (in parallel) প্রসেস করা যেত না। এটি ভুলে যাওয়ার প্রবণতাও দেখাত, কারণ বাক্যের শেষ প্রান্তে পৌঁছানোর আগেই মডেলটি বাক্যের শুরুটা ভুলে যেত।

Attention এটি বদলে দিয়েছে। ক্রমানুসারে পড়ার পরিবর্তে, একটি বাক্যের প্রতিটি শব্দ একসাথে অন্য প্রতিটি শব্দের দিকে নজর দেয়।

"it" শব্দটি তার বিশেষ্য বা noun-এর সাথে সরাসরি যুক্ত হতে পারে, সেটি যত দূরেই থাকুক না কেন। যেহেতু শব্দগুলো কোনো নির্দিষ্ট ক্রমের ওপর নির্ভর করে না, তাই আপনি GPU ব্যবহার করে সবকিছু একসাথে গণনা করতে পারেন।

Transformer এই তিনটি ধারণার সমন্বয় ঘটায়। এটি skip connections-এর মাধ্যমে মোড়ানো attention blocks ব্যবহার করে এবং মাঝখানে normalization ব্যবহার করে।

এআই-এর জন্য বুদ্ধিমত্তা বোঝার ক্ষেত্রে কোনো বিশাল যুগান্তকারী আবিষ্কারের প্রয়োজন ছিল না। বরং ত্রুটিপূর্ণ সিস্টেমগুলোর জন্য তিনটি বুদ্ধিদীপ্ত সমাধানের প্রয়োজন ছিল।

Source: https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

Optional learning community: https://t.me/GyaanSetuAi

তিনটি ধারণা যা এআই-কে সম্ভব করে তুলেছে

Continue reading

AI হ্যালুসিনেশন সমাধান করা

𝗧𝗵𝗲 𝗔𝗜 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗚𝗮𝗽

ট্রান্সফর্মার কীভাবে কাজ করে

এআই চিন্তাশক্তিকে প্রতিস্থাপন করে না, বরং এটি আরও বাড়িয়ে তোলে।

তিনটি ধারণা যা আধুনিক এআই-কে সম্ভব করে তুলেছে