وہ تین آئیڈیاز جنہوں نے AI کو ممکن بنایا

جدید AI جادو کی طرح لگتا ہے۔ آپ ایک جملہ ٹائپ کرتے ہیں اور مشین جواب میں لکھتی ہے۔ یہ غیر معمولی محسوس ہوتا ہے۔

ایسا نہیں ہے۔

جدید AI اس لیے موجود ہے کیونکہ انجینئرز نے مخصوص مسائل کو حل کیا۔ انہوں نے خراب نیٹ ورکس کو پایا اور انہیں درست کیا۔

یہاں وہ تین انجینئرنگ اصلاحات ہیں جنہوں نے Transformer کو تخلیق کیا۔

  1. Skip Connections

2014 میں، محققین نے نیورل نیٹ ورکس (neural networks) کو مزید گہرا بنانے کی کوشش کی۔ ان کا خیال تھا کہ زیادہ تہیں (layers) بہتر نتائج کا باعث بنیں گی۔ یہ ناکام رہا۔ گہرے نیٹ ورکس نے درحقیقت بدتر کارکردگی دکھائی۔

نیٹ ورک کو تربیت دینے کے لیے استعمال ہونے والا ایرر سگنل (error signal) کئی تہوں سے گزرتے ہوئے یا تو ختم ہو جاتا یا بہت زیادہ بڑھ جاتا۔ ابتدائی تہوں کو کوئی مفید فیڈ بیک نہیں ملتا تھا۔

اس کا حل سادہ تھا۔ ہر تہہ کو ان پٹ تبدیل کرنے پر مجبور کرنے کے بجائے، ان پٹ کو آگے چھلانگ لگانے دیں۔

ایک ResNet بلاک میں، آپ اصل ان پٹ کو آؤٹ پٹ میں دوبارہ شامل کر دیتے ہیں۔ یہ سگنل کے گزرنے کے لیے ایک براہ راست راستہ بنا دیتا ہے۔ مزید تہیں شامل کرنے سے اب سسٹم خراب نہیں ہوتا۔ اگر کوئی تہہ مددگار نہ ہو، تو وہ محض ان پٹ کو بغیر کسی تبدیلی کے آگے بھیج سکتی ہے۔

  1. Normalization

جیسے جیسے ڈیٹا نیٹ ورک کے ذریعے حرکت کرتا ہے، نمبرز میں اتار چڑھاؤ آتا ہے۔ ایک تہہ 0.01 آؤٹ پٹ دے سکتی ہے جبکہ اگلی 5000۔ جب نمبرز ان انتہاؤں تک پہنچ جاتے ہیں، تو سیکھنے کا عمل رک جاتا ہے۔

Normalization حجم کو برابر کر کے اس مسئلے کو حل کرتی ہے۔ یہ نمبرز کو دوبارہ صفر کے گرد مرکز کرتی ہے اور انہیں ایک مستقل حد (range) تک پہنچاتی ہے۔

یہ ریاضی کو مستحکم رکھتا ہے۔ یہ آپ کو زیادہ لرننگ ریٹس (learning rates) استعمال کرنے اور بہت تیزی سے تربیت دینے کی اجازت دیتا ہے۔ یہ ایک عملی حل ہے جو ڈی بگنگ (debugging) کے بے شمار گھنٹے بچاتا ہے۔

  1. Attention

پرانے ماڈلز متن کو ایک وقت میں ایک لفظ کر کے پڑھتے تھے۔ یہ طریقہ سست تھا کیونکہ آپ الفاظ کو متوازی (parallel) طور پر پروسیس نہیں کر سکتے تھے۔ یہ بھولنے والا بھی تھا کیونکہ جب تک ماڈل جملے کے آخر تک پہنچتا، وہ جملے کا آغاز بھول چکا ہوتا تھا۔

Attention اسے بدل دیتا ہے۔ ترتیب سے پڑھنے کے بجائے، جملے کا ہر لفظ ایک ہی وقت میں دوسرے تمام الفاظ کو دیکھتا ہے۔

لفظ "it" براہ راست اپنے اسم (noun) سے جڑ سکتا ہے، چاہے وہ کتنا ہی دور کیوں نہ ہو۔ چونکہ الفاظ کسی ترتیب پر انحصار نہیں کرتے، اس لیے آپ GPU کا استعمال کرتے ہوئے سب کچھ ایک ساتھ کیلکولیٹ کر سکتے ہیں۔

Transformer ان تینوں کا مجموعہ ہے۔ یہ attention بلاکس کا استعمال کرتا ہے جو skip connections میں لپٹے ہوئے ہوتے ہیں اور ان کے درمیان normalization ہوتی ہے۔

AI کو ذہانت کو سمجھنے میں کسی بڑی پیش رفت کی ضرورت نہیں تھی۔ اسے صرف خراب سسٹمز کے لیے تین ذہین اصلاحات کی ضرورت تھی۔

Source: https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

Optional learning community: https://t.me/GyaanSetuAi