எனது ASUS ROG Ally-இல் நான் ஒரு LLM-ஐ உள்ளூர் முறையில் (Locally) இயக்கினேன்
நான் சில வாரங்களாக எனது ASUS ROG Ally-இல் ஒரு உள்ளூர் AI மாதிரியை (local AI model) இயக்கினேன். இது ஒரு சுவாரஸ்யமான திட்டமாக இருக்கும் என்று நினைத்தேன். ஆனால், அதற்குப் பதிலாக, இது வன்பொருள் வரம்புகள் (hardware limits) குறித்த ஒரு பாடமாக மாறியது.
நான் இதை கிளவுட் (cloud) மாற்றாகப் பயன்படுத்தவில்லை. சிறிய பணிகளுக்கான ஒரு பிரத்யேகக் கருவியாகப் பயன்படுத்தினேன். கையடக்க வன்பொருளில் (handheld hardware) AI-ஐ இயக்குவது குறித்து நான் கற்றுக்கொண்டவை இதோ.
நினைவகத் தடை (The Memory Barrier)
கையடக்கக் கருவிகள் Unified Memory Architecture-ஐப் பயன்படுத்துகின்றன. அதாவது, CPU மற்றும் GPU ஆகியவை ஒரே RAM-ஐப் பகிர்ந்து கொள்கின்றன. இயல்பாகவே, GPU மிகச்சிறிய அளவிலான நினைவகத்தைப் பெறுகிறது.
உங்கள் மாதிரி (model) அந்தப் பகுதிக்குள் பொருந்தவில்லை என்றால், கணினி CPU-வைப் பயன்படுத்தும். இது பதில்களை உருவாக்குவதை (generation) மிகவும் மெதுவாக்கிவிடும்.
தீர்வு:
- உங்கள் BIOS-க்குள் செல்லுங்கள்.
- UMA frame buffer அளவை கைமுறையாக அதிகரியுங்கள்.
- நான் எனது அளவை 4 GB ஆக உயர்த்தினேன். இந்த மாற்றம் மற்ற எந்த மாற்றத்தையும் விட அதிக உதவியாக இருந்தது.
எது வேலை செய்யாது
நினைவகத்திலிருந்து அதிகப்படியான இடத்தைப் பெற நான் zRAM-ஐப் பயன்படுத்த முயன்றேன். அது தோல்வியடைந்தது. பெரும்பாலான AI மாதிரிகள் ஏற்கனவே சுருக்கப்பட்ட (compressed) GGUF கோப்புகளைப் பயன்படுத்துகின்றன. இடத்தைப் பெறுவதற்காக அவற்றை மேலும் சுருக்க முடியாது.
உதவியாக இருக்க நான் disk swap-ஐயும் பயன்படுத்த முயன்றேன். Swap விஷயங்களை வேகமாக்காது; மாறாக அவற்றை பயன்படுத்த முடியாதபடி செய்துவிடும். உங்கள் மாதிரி disk swap-ஐச் சார்ந்து இருந்தால், ஒவ்வொரு சில வினாடிகளுக்கும் ஒரு வார்த்தையை மட்டுமே நீங்கள் பார்க்க முடியும்.
RAM தீர்ந்துபோகும் போது, கணினி உங்கள் செயல்பாட்டை (process) நிறுத்திவிடாமல் தடுப்பதற்கு மட்டுமே swap-ஐச் செயல்படுத்தி வைத்திருக்க வேண்டும்.
தடையற்ற இயக்கத்திற்கான குறிப்புகள்
உங்கள் AI வெளியீடு துண்டு துண்டாகவோ அல்லது தடையற்றதாக இல்லாமலோ இருந்தால், உங்கள் Linux kernel அமைப்புகளைச் சரிபார்க்கவும்.
- உங்கள்
vm.swappinessமதிப்பை குறைக்கவும். - இது நினைவகத்தை மிக விரைவாக swap-க்கு மாற்றுவதைத் தடுக்கும்.
- இது பதில்களை உருவாக்கும் போது தடையின்றி சீராக இருக்க உதவும்.
மாதிரித் தேர்வு என்பது பயன்பாட்டு முறையைப் பொறுத்தது (Use-Case)
பெரும்பாலான மக்கள் வேகமான மாதிரியைத் தேடுகிறார்கள். ஆனால் நான் அதற்குப் பதிலாக மெதுவான, ஆனால் துல்லியமான மாதிரியைத் தேர்ந்தெடுத்தேன்.
- நீங்கள் நிகழ்நேரத்தில் (real time) உரையாடுகிறீர்கள் என்றால், உங்களுக்கு வேகம் தேவை.
- நீங்கள் ஒரு பின்னணி ஏஜென்ட்டை (background agent) இயக்குகிறீர்கள் என்றால், உங்களுக்குத் தரம் தேவை.
நான் எனது அமைப்பை பின்னணிப் பணிகளுக்காகப் பயன்படுத்துகிறேன். நான் ஒரு கோரிக்கையை அனுப்பிவிட்டு, அதன் முடிவை பிறகு சரிபார்ப்பேன். நான் திரையைப் பார்த்துக் கொண்டிருக்காததால், ஒரு பதில் 8 வினாடிகளுக்குப் பதிலாக 40 வினாடிகள் எடுத்தாலும் எனக்குப் பொருட்டல்ல. எனக்குத் தேவையானது சிறந்த பதில், வேகமான பதில் அல்ல.
கையடக்கக் கருவிகளில் reasoning models-ஐத் தவிர்க்கவும். பலவீனமான வன்பொருளில், படி-படியாகச் சிந்திக்கும் செயல்முறை (step-by-step thinking process) அதிக நேரத்தை எடுத்துக்கொள்ளும். அதன் மூலம் கிடைக்கும் தரமான முன்னேற்றம், அந்த நேரத்திற்கு ஈடாக இருக்காது.
இது எதற்குச் சிறந்தது
16 GB கொண்ட சாதனம் இதற்கெல்லாம் சிறந்தது:
- குறுகிய மின்னஞ்சல்களைத் தயார் செய்ய.
- சிறிய குறியீட்டுத் துண்டுகளை (code snippets) ஆய்வு செய்ய.
- அன்றாடத் திட்டமிடலுக்கு.
- உங்கள் நெட்வொர்க்கை விட்டு வெளியேறக் கூடாத தனிப்பட்ட பணிகளுக்கு.
இது இதற்கெல்லாம் ஏற்றதல்ல:
- நீண்ட ஆவணங்களுக்கு.
- ஆழமான ஆராய்ச்சிக்கு.
- சிக்கலான குறியீட்டுத் திட்டங்களுக்கு (coding projects).
உள்ளூர் AI என்பது ஒரு கருவி, ஒரு அதிசயம் அல்ல. இது வழக்கமான, இலகுரகப் பணிகளுக்குப் பொருத்தமானது.
Optional learning community: https://t.me/GyaanSetuAi
