LLM-ன் குவாட்ராடிக் (Quadratic) தடையைத் தீர்ப்பதில் Subquadratic ஒரு முக்கிய முன்னேற்றத்தை அறிவித்துள்ளது
மியாமி-அடிப்படையிலான ஸ்டார்ட்அப் நிறுவனமான Subquadratic, கிட்டத்தட்ட ஒரு தசாப்தமாக Large Language Models (LLMs)-களைத் தடுத்து வந்த ஒரு கணித ரீதியான கட்டுப்பாட்டைத் தீர்த்துவிட்டதாகக் கூறி வருவதால், AIத் துறை மத்தியில் பெரும் பரபரப்பு ஏற்பட்டுள்ளது. ஆரம்பத்தில் இது குறித்து அதிக சந்தேகம் நிலவிய போதிலும், சமீபத்திய சுயாதீன சரிபார்ப்புகள் அவர்களின் புதிய "SubQ" கட்டமைப்பு (architecture), ஜெனரேட்டிவ் AI-ன் போக்கையே அடிப்படை ரீதியாக மாற்றக்கூடும் என்று தெரிவிக்கின்றன.
பிரச்சனை: Dense Attention-ன் குவாட்ராடிக் (Quadratic) செலவு
Subquadratic-ன் இந்த அறிவிப்பின் முக்கியத்துவத்தைப் புரிந்துகொள்ள, 2017-ல் கூகுள் அறிமுகப்படுத்திய "Transformer" கட்டமைப்பைப் புரிந்துகொள்வது அவசியம். பெரும்பாலான நவீன LLM-கள் dense attention எனப்படும் ஒரு முறையைச் சார்ந்துள்ளன. இந்தச் செயல்பாட்டில், சூழலைப் (context) புரிந்துகொள்வதற்காக, ஒரு தொடரில் உள்ள ஒவ்வொரு டோக்கனும் (token - சொல் அல்லது சொல்லின் ஒரு பகுதி) மற்ற அனைத்து டோக்கன்களுடனும் பெருக்கப்படுகிறது.
இது "quadratic expansion" என்று அழைக்கப்படும் மிகப்பெரிய கணக்கீட்டுச் சுமையை உருவாக்குகிறது. நீங்கள் ஒரு உரையின் நீளத்தை இருமடங்காக்கினால், அதற்கான கணக்கீட்டுத் தேவைகள் கிட்டத்தட்ட நான்கு மடங்காகும். 10,000 சொற்கள் கொண்ட ஒரு ஆவணத்திற்கு, அந்த மாடல் கிட்டத்தட்ட 5 கோடி தனித்தனி பெருக்கல் கணக்குகளைச் செய்ய வேண்டும். இந்தத் திறமையின்மையே, நீண்ட சூழல்களை (long contexts) செயலாக்கப் பெரும் ஆற்றல் மற்றும் விலையுயர்ந்த வன்பொருள் தேவைப்படுவதால், LLM-கள் அதிக மின்சாரத்தைப் பயன்படுத்தும் "power hogs" என்று அழைக்கப்படுவதற்கு முக்கியக் காரணமாகும்.
தீர்வு: Sparse Attention மூலம் அளவிடுதல்
Subquadratic-ன் SubQ மாடல், dense attention-க்கு பதிலாக sparse attention முறையைப் பயன்படுத்த இலக்கு வைத்துள்ளது. சொற்களுக்கு இடையிலான அனைத்துத் தொடர்புகளும் ஒரு ஆவணத்தைப் புரிந்துகொள்வதற்கு அவசியமானவை அல்ல என்பதே இதன் அடிப்படைத் தத்துவமாகும். ஒவ்வொரு டோக்கனையும் மற்ற அனைத்து டோக்கன்களுடனும் பெருக்குவதற்குப் பதிலாக, மிகவும் பொருத்தமான தொடர்புகளை மட்டுமே கணக்கிட sparse attention தேர்ந்தெடுக்கிறது.
"sparse attention" என்பது புதிய கருத்து அல்ல என்றாலும், முந்தைய முயற்சிகள் dense-attention மாடல்களில் காணப்படும் உயர்நிலைத் தர்க்கம் மற்றும் நுணுக்கங்களைப் பராமரிப்பதில் சிரமப்பட்டன. இந்த இடைவெளியைக் குறைத்துவிட்டதாக Subquadratic கூறுகிறது; அதாவது, வழக்கமான அறிவுத்திறன் இழப்பு இல்லாமல், sparse attention-ன் செயல்திறனை வழங்கும் ஒரு மாடலை அவர்கள் உருவாக்கியுள்ளனர்.
அறிவிப்புகளைச் சரிபார்த்தல்: Appen-லிருந்து கிடைத்த முடிவுகள்
ஆரம்பகாலச் சந்தேகங்களைத் தொடர்ந்து—சில விமர்சகர்கள் சரிபார்க்கப்படாத இந்த அறிவிப்புகளை "AI Theranos"-உடன் கூட ஒப்பிட்டனர்—முன்னணி AI மதிப்பீட்டு நிறுவனமான Appen-லிருந்து பெறப்பட்ட மூன்றாம் தரப்பு அளவீடுகளை (benchmarks) Subquadratic வெளியிட்டுள்ளது. Appen-ன் சுயாதீன சோதனையின் முடிவுகள் SubQ கட்டமைப்பைச் சரிபார்த்துள்ளன; மேலும் இந்த முடிவுகளை "அதிர்ச்சியூட்டும்வை" என்றும், ஒரு சாத்தியமான "விதி மாற்றியாகும்" (game changer) என்றும் விவரித்துள்ளன.
அந்த ஸ்டார்ட்அப் நிறுவனத்தின் கூற்றுப்படி, SubQ பல மாற்றத்தக்க தொழில்நுட்ப நன்மைகளை வழங்குகிறது:
- Context Window: பெரும்பாலான தற்போதைய மாடல்களுடன் ஒப்பிடும்போது, SubQ ஒரே நேரத்தில் 12 மடங்கு அதிக உரையை செயலாக்க முடியும், இது முழுமையான codebases அல்லது மிகப்பெரிய ஆவண நூலகங்களை ஆய்வு செய்வதற்கு ஏற்றதாக அமைகிறது.
- Performance: மெலிதான கட்டமைப்பைக் கொண்டிருந்தாலும், கோடிங் (coding) போன்ற முக்கியமான பணிகளில் OpenAI, Google DeepMind மற்றும் Anthropic போன்ற தொழில்துறை முன்னணிகளின் செயல்திறனுக்கு SubQ இணையாக உள்ளது.
- Efficiency: தற்போதுள்ள transformer-அடிப்படையிலான மாடல்களை விட இந்த மாடல் கணிசமாக வேகமானது, மலிவானது மற்றும் அதிக ஆற்றல் திறன் கொண்டது.
Transformers-க்கு அப்பாற்பட்ட ஒரு புதிய யுகமா?
Subquadratic என்பது தற்போதைய மாடல்களை மேம்படுத்துவதை மட்டும் நோக்கமாகக் கொண்டிருக்கவில்லை; அவை தொழில்துறையின் அடிப்படை கட்டமைப்பையே மாற்றியமைக்க முயல்கின்றன. Transformers-ஐ அடிப்படையாகக் கொண்டு கட்டமைக்கும் காலம் முடிவுக்கு வரலாம் என்று நிறுவனத்தின் CEO Justin Dangel தெரிவித்துள்ளார். SubQ தனது செயல்திறனை பெரிய அளவில் தொடர்ந்து நிரூபித்தால், dense-லிருந்து sparse attention-க்கு மாறுவது என்பது Transformer கண்டுபிடிக்கப்பட்டதிலிருந்து AI கட்டமைப்பில் ஏற்படும் மிக முக்கியமான மாற்றமாக இருக்கும்.
முக்கியக் குறிப்புகள்
- Breaking the Quadratic Barrier: பாரம்பரிய dense attention-ஆல் தேவைப்படும் கணக்கீட்டுத் திறனின் (computation) அதிவேக அதிகரிப்பைத் தவிர்க்க, SubQ sparse attention-ஐப் பயன்படுத்துகிறது.
- Superior Context Handling: இந்த மாடல் ஒரே நேரத்தில் 12 மடங்கு அதிக தரவைச் செயலாக்க முடியும், இது பெரிய அளவிலான தரவுத்தொகுப்புகள் (datasets) மற்றும் நீண்ட குறியீடுகளை (long-form code) ஆழமாக ஆய்வு செய்ய வழிவகுக்கிறது.
- Verified Efficiency: Appen நிறுவனத்தின் சுயாதீன சோதனை, SubQ மிகக் குறைந்த செலவு மற்றும் ஆற்றலில் உயர்நிலை செயல்திறனை (OpenAI மற்றும் Google-க்கு இணையான) அடைந்துள்ளதை உறுதிப்படுத்துகிறது.