Subquadratic Claims Breakthrough in Solving the LLM Quadratic Bottleneck

Translated for your language. اقرأ الأصل.

AI-assisted draft.

أول أمس3دقيقة قراءة

في هذا المقال

شركة Subquadratic تزعم تحقيق طفرة في حل مشكلة عنق الزجاجة التربيعي في النماذج اللغوية الكبيرة (LLMs)

تضج صناعة الذكاء الاصطناعي بالحديث عن شركة Subquadratic الناشئة التي تتخذ من ميامي مقراً لها، والتي تزعم أنها نجحت في حل قيد رياضي حدّ من قدرات النماذج اللغوية الكبيرة (LLMs) لما يقرب من عقد من الزمان. ورغم الشكوك الأولية العالية، إلا أن عمليات التحقق المستقلة الأخيرة تشير إلى أن بنية "SubQ" الجديدة الخاصة بهم قد تُحدث تغييراً جذرياً في نموذج الذكاء الاصطناعي التوليدي.

المشكلة: التكلفة التربيعية للانتباه الكثيف (Dense Attention)

لفهم أهمية ادعاء Subquadratic، يجب أولاً فهم بنية "Transformer" التي قدمتها جوجل في عام 2017. تعتمد معظم النماذج اللغوية الكبيرة الحديثة على آلية تسمى الانتباه الكثيف (dense attention). في هذه العملية، يتم ضرب كل رمز (token) -سواء كان كلمة أو جزءاً من كلمة- في كل رمز آخر في التسلسل لالتقاط السياق.

يؤدي هذا إلى خلق عبء حوسبي هائل يُعرف بالتوسع التربيعي. فإذا ضاعفت طول النص، فإن المتطلبات الحوسبية تتضاعف أربع مرات تقريباً. فبالنسبة لمستند مكون من 10,000 كلمة، يجب على النموذج إجراء ما يقرب من 50 مليون عملية ضرب فردية. وتعد عدم الكفاءة هذه هي السبب الرئيسي وراء شهرة النماذج اللغوية الكبيرة باستهلاكها الهائل للطاقة، حيث تتطلب طاقة هائلة وأجهزة باهظة الثمن لمعالجة السياقات الطويلة.

الحل: التوسع باستخدام الانتباه المتفرق (Sparse Attention)

يهدف نموذج SubQ من شركة Subquadratic إلى التخلي عن الانتباه الكثيف لصالح الانتباه المتفرق (sparse attention). وتتمثل الفلسفة الجوهرية في أن ليست كل علاقة بين الكلمات ضرورية لفهم المستند. فبدلاً من ضرب كل رمز في كل الرموز الأخرى، يختار الانتباه المتفرق العلاقات الأكثر صلة فقط لمعالجتها.

ورغم أن "الانتباه المتفرق" ليس مفهوماً جديداً، إلا أن المحاولات السابقة واجهت صعوبة في الحفاظ على المستوى العالي من الاستنتاج والفروق الدقيقة الموجودة في نماذج الانتباه الكثيف. وتزعم Subquadratic أنها نجحت في سد هذه الفجوة، من خلال إنشاء نموذج يوفر كفاءة الانتباه المتفرق دون الفقدان التقليدي في مستوى الذكاء.

التحقق من صحة الادعاءات: نتائج من Appen

في أعقاب الشكوك المبكرة - حيث ذهب بعض النقاد إلى تشبيه الادعاءات غير المؤكدة بـ "AI Theranos" - أصدرت Subquadratic نتائج اختبارات معيارية من طرف ثالث من شركة Appen، وهي شركة رائدة في تقييم الذكاء الاصطناعي. وقد أثبتت نتائج الاختبارات المستقلة من Appen صحة بنية SubQ، واصفةً النتائج بأنها "صادمة" ومن شأنها أن تكون "مغيرة لقواعد اللعبة".

وفقاً للشركة الناشئة، توفر SubQ العديد من المزايا التقنية التحويلية:

نافذة السياق (Context Window): يمكن لـ SubQ معالجة نصوص أكثر بـ 12 مرة في المرة الواحدة مقارنة بمعظم النماذج الحالية، مما يجعلها مثالية لتحليل قواعد الأكواد البرمجية الكاملة أو مكتبات المستندات الضخمة.
الأداء: على الرغم من البنية الأكثر رشاقة، تضاهي SubQ أداء الشركات الرائدة في هذا المجال مثل OpenAI وGoogle DeepMind وAnthropic في المهام الحرجة مثل البرمجة.
الكفاءة: النموذج أسرع بكثير، وأرخص، وأكثر كفاءة في استهلاك الطاقة من النماذج الحالية القائمة على تقنية Transformers.

عصر جديد يتجاوز الـ Transformers؟

لا تسعى Subquadratic فقط إلى تحسين النماذج الحالية؛ بل تتطلع إلى استبدال البنية التحتية الأساسية لهذا القطاع. وقد صرح الرئيس التنفيذي Justin Dangel بأن الشركة تعتقد أن عصر البناء على تقنية Transformers قد يقترب من نهايته. وإذا تمكنت SubQ من مواصلة إثبات فعاليتها على نطاق واسع، فقد يمثل الانتقال من "الانتباه الكثيف" (dense attention) إلى "الانتباه المتفرق" (sparse attention) التحول الأبرز في بنية الذكاء الاصطناعي منذ اختراع الـ Transformer نفسه.

أهم النقاط المستخلصة

كسر الحاجز التربيعي: تستخدم SubQ تقنية "الانتباه المتفرق" (sparse attention) لتجنب الزيادة الأسية في العمليات الحسابية التي يتطلبها "الانتباه الكثيف" (dense attention) التقليدي.
معالجة فائقة للسياق: يمكن للنموذج معالجة بيانات أكثر بـ 12 مرة في المرة الواحدة، مما يتيح تحليلاً عميقاً لمجموعات البيانات الضخمة والأكواد البرمجية الطويلة.
كفاءة مُثبتة: تؤكد الاختبارات المستقلة التي أجرتها Appen أن SubQ تحقق أداءً رفيع المستوى (يضاهي OpenAI وGoogle) بجزء بسيط من التكلفة والطاقة.

Subquadratic Claims Breakthrough in Solving the LLM Quadratic Bottleneck

شركة Subquadratic تزعم تحقيق طفرة في حل مشكلة عنق الزجاجة التربيعي في النماذج اللغوية الكبيرة (LLMs)

المشكلة: التكلفة التربيعية للانتباه الكثيف (Dense Attention)

الحل: التوسع باستخدام الانتباه المتفرق (Sparse Attention)

التحقق من صحة الادعاءات: نتائج من Appen

عصر جديد يتجاوز الـ Transformers؟

أهم النقاط المستخلصة

متابعة القراءة

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

قد تجمع 9 ملايين دولار لمكافحة هلوسة النماذج اللغوية الكبيرة (LLM) عبر الهندسة الدقيقة

اختراقات في الكفاءة وصعود واجهات الدماغ والحاسوب

معيار AA Briefcase الجديد يكشف عن معاناة الذكاء الاصطناعي مع العمل المعرفي الحقيقي

سام ألتمان يزعم أن المشككين في التوسع أعاقوا تطوير الذكاء الاصطناعي