Subquadratic Claims Breakthrough in Solving the LLM Quadratic Bottleneck

Translated for your language. Read the original.

AI-assisted draft.

நேற்று முன் தினம்3min read

In this article

LLM-ன் குவாட்ராடிக் (Quadratic) தடையைத் தீர்ப்பதில் Subquadratic ஒரு முக்கிய முன்னேற்றத்தை அறிவித்துள்ளது

மியாமி-அடிப்படையிலான ஸ்டார்ட்அப் நிறுவனமான Subquadratic, கிட்டத்தட்ட ஒரு தசாப்தமாக Large Language Models (LLMs)-களைத் தடுத்து வந்த ஒரு கணித ரீதியான கட்டுப்பாட்டைத் தீர்த்துவிட்டதாகக் கூறி வருவதால், AIத் துறை மத்தியில் பெரும் பரபரப்பு ஏற்பட்டுள்ளது. ஆரம்பத்தில் இது குறித்து அதிக சந்தேகம் நிலவிய போதிலும், சமீபத்திய சுயாதீன சரிபார்ப்புகள் அவர்களின் புதிய "SubQ" கட்டமைப்பு (architecture), ஜெனரேட்டிவ் AI-ன் போக்கையே அடிப்படை ரீதியாக மாற்றக்கூடும் என்று தெரிவிக்கின்றன.

பிரச்சனை: Dense Attention-ன் குவாட்ராடிக் (Quadratic) செலவு

Subquadratic-ன் இந்த அறிவிப்பின் முக்கியத்துவத்தைப் புரிந்துகொள்ள, 2017-ல் கூகுள் அறிமுகப்படுத்திய "Transformer" கட்டமைப்பைப் புரிந்துகொள்வது அவசியம். பெரும்பாலான நவீன LLM-கள் dense attention எனப்படும் ஒரு முறையைச் சார்ந்துள்ளன. இந்தச் செயல்பாட்டில், சூழலைப் (context) புரிந்துகொள்வதற்காக, ஒரு தொடரில் உள்ள ஒவ்வொரு டோக்கனும் (token - சொல் அல்லது சொல்லின் ஒரு பகுதி) மற்ற அனைத்து டோக்கன்களுடனும் பெருக்கப்படுகிறது.

இது "quadratic expansion" என்று அழைக்கப்படும் மிகப்பெரிய கணக்கீட்டுச் சுமையை உருவாக்குகிறது. நீங்கள் ஒரு உரையின் நீளத்தை இருமடங்காக்கினால், அதற்கான கணக்கீட்டுத் தேவைகள் கிட்டத்தட்ட நான்கு மடங்காகும். 10,000 சொற்கள் கொண்ட ஒரு ஆவணத்திற்கு, அந்த மாடல் கிட்டத்தட்ட 5 கோடி தனித்தனி பெருக்கல் கணக்குகளைச் செய்ய வேண்டும். இந்தத் திறமையின்மையே, நீண்ட சூழல்களை (long contexts) செயலாக்கப் பெரும் ஆற்றல் மற்றும் விலையுயர்ந்த வன்பொருள் தேவைப்படுவதால், LLM-கள் அதிக மின்சாரத்தைப் பயன்படுத்தும் "power hogs" என்று அழைக்கப்படுவதற்கு முக்கியக் காரணமாகும்.

தீர்வு: Sparse Attention மூலம் அளவிடுதல்

Subquadratic-ன் SubQ மாடல், dense attention-க்கு பதிலாக sparse attention முறையைப் பயன்படுத்த இலக்கு வைத்துள்ளது. சொற்களுக்கு இடையிலான அனைத்துத் தொடர்புகளும் ஒரு ஆவணத்தைப் புரிந்துகொள்வதற்கு அவசியமானவை அல்ல என்பதே இதன் அடிப்படைத் தத்துவமாகும். ஒவ்வொரு டோக்கனையும் மற்ற அனைத்து டோக்கன்களுடனும் பெருக்குவதற்குப் பதிலாக, மிகவும் பொருத்தமான தொடர்புகளை மட்டுமே கணக்கிட sparse attention தேர்ந்தெடுக்கிறது.

"sparse attention" என்பது புதிய கருத்து அல்ல என்றாலும், முந்தைய முயற்சிகள் dense-attention மாடல்களில் காணப்படும் உயர்நிலைத் தர்க்கம் மற்றும் நுணுக்கங்களைப் பராமரிப்பதில் சிரமப்பட்டன. இந்த இடைவெளியைக் குறைத்துவிட்டதாக Subquadratic கூறுகிறது; அதாவது, வழக்கமான அறிவுத்திறன் இழப்பு இல்லாமல், sparse attention-ன் செயல்திறனை வழங்கும் ஒரு மாடலை அவர்கள் உருவாக்கியுள்ளனர்.

அறிவிப்புகளைச் சரிபார்த்தல்: Appen-லிருந்து கிடைத்த முடிவுகள்

ஆரம்பகாலச் சந்தேகங்களைத் தொடர்ந்து—சில விமர்சகர்கள் சரிபார்க்கப்படாத இந்த அறிவிப்புகளை "AI Theranos"-உடன் கூட ஒப்பிட்டனர்—முன்னணி AI மதிப்பீட்டு நிறுவனமான Appen-லிருந்து பெறப்பட்ட மூன்றாம் தரப்பு அளவீடுகளை (benchmarks) Subquadratic வெளியிட்டுள்ளது. Appen-ன் சுயாதீன சோதனையின் முடிவுகள் SubQ கட்டமைப்பைச் சரிபார்த்துள்ளன; மேலும் இந்த முடிவுகளை "அதிர்ச்சியூட்டும்வை" என்றும், ஒரு சாத்தியமான "விதி மாற்றியாகும்" (game changer) என்றும் விவரித்துள்ளன.

அந்த ஸ்டார்ட்அப் நிறுவனத்தின் கூற்றுப்படி, SubQ பல மாற்றத்தக்க தொழில்நுட்ப நன்மைகளை வழங்குகிறது:

Context Window: பெரும்பாலான தற்போதைய மாடல்களுடன் ஒப்பிடும்போது, SubQ ஒரே நேரத்தில் 12 மடங்கு அதிக உரையை செயலாக்க முடியும், இது முழுமையான codebases அல்லது மிகப்பெரிய ஆவண நூலகங்களை ஆய்வு செய்வதற்கு ஏற்றதாக அமைகிறது.
Performance: மெலிதான கட்டமைப்பைக் கொண்டிருந்தாலும், கோடிங் (coding) போன்ற முக்கியமான பணிகளில் OpenAI, Google DeepMind மற்றும் Anthropic போன்ற தொழில்துறை முன்னணிகளின் செயல்திறனுக்கு SubQ இணையாக உள்ளது.
Efficiency: தற்போதுள்ள transformer-அடிப்படையிலான மாடல்களை விட இந்த மாடல் கணிசமாக வேகமானது, மலிவானது மற்றும் அதிக ஆற்றல் திறன் கொண்டது.

Transformers-க்கு அப்பாற்பட்ட ஒரு புதிய யுகமா?

Subquadratic என்பது தற்போதைய மாடல்களை மேம்படுத்துவதை மட்டும் நோக்கமாகக் கொண்டிருக்கவில்லை; அவை தொழில்துறையின் அடிப்படை கட்டமைப்பையே மாற்றியமைக்க முயல்கின்றன. Transformers-ஐ அடிப்படையாகக் கொண்டு கட்டமைக்கும் காலம் முடிவுக்கு வரலாம் என்று நிறுவனத்தின் CEO Justin Dangel தெரிவித்துள்ளார். SubQ தனது செயல்திறனை பெரிய அளவில் தொடர்ந்து நிரூபித்தால், dense-லிருந்து sparse attention-க்கு மாறுவது என்பது Transformer கண்டுபிடிக்கப்பட்டதிலிருந்து AI கட்டமைப்பில் ஏற்படும் மிக முக்கியமான மாற்றமாக இருக்கும்.

முக்கியக் குறிப்புகள்

Breaking the Quadratic Barrier: பாரம்பரிய dense attention-ஆல் தேவைப்படும் கணக்கீட்டுத் திறனின் (computation) அதிவேக அதிகரிப்பைத் தவிர்க்க, SubQ sparse attention-ஐப் பயன்படுத்துகிறது.
Superior Context Handling: இந்த மாடல் ஒரே நேரத்தில் 12 மடங்கு அதிக தரவைச் செயலாக்க முடியும், இது பெரிய அளவிலான தரவுத்தொகுப்புகள் (datasets) மற்றும் நீண்ட குறியீடுகளை (long-form code) ஆழமாக ஆய்வு செய்ய வழிவகுக்கிறது.
Verified Efficiency: Appen நிறுவனத்தின் சுயாதீன சோதனை, SubQ மிகக் குறைந்த செலவு மற்றும் ஆற்றலில் உயர்நிலை செயல்திறனை (OpenAI மற்றும் Google-க்கு இணையான) அடைந்துள்ளதை உறுதிப்படுத்துகிறது.

Subquadratic Claims Breakthrough in Solving the LLM Quadratic Bottleneck

LLM-ன் குவாட்ராடிக் (Quadratic) தடையைத் தீர்ப்பதில் Subquadratic ஒரு முக்கிய முன்னேற்றத்தை அறிவித்துள்ளது

பிரச்சனை: Dense Attention-ன் குவாட்ராடிக் (Quadratic) செலவு

தீர்வு: Sparse Attention மூலம் அளவிடுதல்

அறிவிப்புகளைச் சரிபார்த்தல்: Appen-லிருந்து கிடைத்த முடிவுகள்

Transformers-க்கு அப்பாற்பட்ட ஒரு புதிய யுகமா?

முக்கியக் குறிப்புகள்

Continue reading

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

துல்லியமான பொறியியல் மூலம் LLM மாயத்தோற்றங்களைச் சமாளிக்க $9 மில்லியன் நிதியைத் திரட்ட வாய்ப்புள்ளது

செயல்திறன் முன்னேற்றங்கள் மற்றும் மூளை கணினி இடைமுகங்களின் எழுச்சி

புதிய AA Briefcase பெஞ்ச்மார்க், உண்மையான அறிவுசார் பணிகளில் AI சந்திக்கும் சவால்களை வெளிப்படுத்துகிறது

அளவீடு குறித்த சந்தேகவாதிகள் AI வளர்ச்சியைத் தடுத்ததாக சாம் ஆல்ட்மேன் கூறுகிறார்