AI பொழுதுபோக்குத் துறையின் உண்மையான கட்டமைப்பு
AI எழுத்தாளர்களையோ அல்லது ஸ்டுடியோக்களையோ மாற்றீடு செய்யுமா என்று கேட்பதை நிறுத்துங்கள். அந்த கேள்விகள் எதையும் உருவாக்க உங்களுக்கு உதவாது.
நீங்கள் ஒரு பொறியாளர் அல்லது வடிவமைப்பாளர் (architect) என்றால், நீங்கள் வேறு ஒரு கேள்வியைக் கேட்க வேண்டும். ஒருமுறை உற்பத்தி செய்யப்பட்டு விநியோகிக்கப்படுவதைத் தவிர்த்து, தேவைக்கேற்ப (on demand) உள்ளடக்கங்கள் உருவாக்கப்படும்போது, அதன் பின்னணி (backend) எப்படி இருக்கும்?
மாடல் (model) என்பது எளிதான பகுதி. தாமதம் (latency), மூலத் தன்மை (provenance) மற்றும் செலவு (cost) ஆகியவை கடினமான பகுதிகள்.
- ஊடாடும் தன்மை (Interactivity) என்பது ஒரு ஸ்ட்ரீமிங் (streaming) சிக்கலாகும்
தொகுப்பு உருவாக்கம் (Batch generation) எளிது. நீங்கள் ஒரு கிளிப்பை ஒரே இரவில் ரெண்டர் (render) செய்யலாம். ஆனால் ஒரு பயனர் ஒரு கதாபாத்திரத்துடன் ஊடாடும்போது, அதன் பதில் 200ms-க்குள் நிகழ வேண்டும்.
இந்த இலக்கை அடைய, நீங்கள் ஒரு API-ஐ மட்டும் அழைக்க முடியாது. நீங்கள் ஒரு தாமத வரம்பை (latency budget) நிர்வகிக்க வேண்டும்:
- நெட்வொர்க் ரவுண்ட் ட்ரிப்: 40ms
- டோக்கனைசேஷன்: 10ms
- மாடல் இன்ஃபரன்ஸ்: 110ms
- போஸ்ட்-புராசஸிங்: 25ms
- ஜிட்டர் மார்ஜின்: 15ms
உங்களுக்கு எட்ஜ் பிளேஸ்மென்ட் (edge placement), KV-cache மறுபயன்பாடு மற்றும் ஸ்பெகுலேட்டிவ் டீகோடிங் (speculative decoding) தேவைப்படும். உங்கள் AI திட்டம் இப்போது ஒரு விநியோகிக்கப்பட்ட அமைப்புகள் (distributed systems) திட்டமாக மாறிவிட்டது.
- மூலத் தன்மை (Provenance) என்பது ஒரு கூடுதல் சிந்தனை அல்ல
உள்ளடக்கம் செயற்கையானதாக இருக்கும்போது, அதை யார் உருவாக்கினார்கள் மற்றும் எதைக் கொண்டு பயிற்சி அளித்தார்கள் என்பதை நீங்கள் அறிய வேண்டும். இதை நீங்கள் பிறகு சரிசெய்ய முடியாது. வம்சாவளி (lineage) இல்லாமல் நீங்கள் ஒரு மில்லியன் சொத்துக்களை (assets) உருவாக்கினால், அந்த வரலாறு என்றென்றும் போய்விடும்.
உங்கள் தரவு மாதிரியில் (data model) மூலத் தன்மையை நீங்கள் உருவாக்க வேண்டும். உருவாக்கும் தருணத்திலேயே அதன் பங்களிப்பு மற்றும் கையொப்பங்களை (attribution and signatures) பதிவு செய்யுங்கள். அவற்றை உங்கள் ஸ்கீமாவில் (schema) சேமிக்கவும். இது சட்ட ரீதியான அல்லது ராயல்டி கேள்விகளுக்கு விரைவாகப் பதிலளிக்க உதவும்.
- பொருளாதாரம் என்பது ஒரு உற்பத்தித் துறை சிக்கலாகும்
ஜெனரேட்டிவ் டெக்ஸ்ட் (Generative text) டோக்கன் கணக்கிலான செலவைப் பயன்படுத்துகிறது. ஜெனரேட்டிவ் வீடியோ நிமிடத்திற்கு கணக்கிலான செலவைப் பயன்படுத்துகிறது.
ஒரு நிமிட 4K வீடியோவிற்கு GPU-வினாடிகளில் உண்மையான செலவு உள்ளது. பெரும்பாலான நிறுவனங்கள் பார்க்க நன்றாக இருக்கும் ஆனால் பெரிய அளவில் செயல்படும்போது தோல்வியடையும் முன்னோட்டத் திட்டங்களை (pilots) நடத்துகின்றன, ஏனெனில் அதன் செலவு மிக அதிகம்.
வெற்றி பெற, உங்கள் இன்ஃபரன்ஸை (inference) ஒரு தொழிற்சாலை போலக் கையாள வேண்டும். பயன்பாடு (utilization) மற்றும் விளைச்சலை (yield) கண்காணிக்கவும். உங்கள் தரத்திற்குப் பொருத்தமான மிகச்சிறிய மாடலைப் பயன்படுத்தவும். பணத்தைச் சேமிக்க உருவாக்கப்பட்ட பகுதிகளை (segments) கேச் (cache) செய்யவும்.
மாடல் செய்திகளில் இடம்பிடிக்கும். ஆனால் கட்டமைப்புதான் (architecture) உண்மையில் எதை வெளியிடுவது என்பதைத் தீர்மானிக்கிறது.
உங்கள் அடுத்த வடிவமைப்பு ஆய்விற்கான (design review) சுருக்கம்:
- ஊடாடும் தன்மையை ஒரு ஸ்ட்ரீமிங் சிஸ்டம் சவாலாகக் கருதுங்கள்.
- முதல் நாளிலிருந்தே மூலத் தன்மையை ஒரு கையொப்பமிடப்பட்ட, சேமிக்கப்பட்ட புலமாக (field) ஆக்குங்கள்.
- உங்கள் அம்சம் நிலைத்திருப்பதை உறுதி செய்ய, வழங்கப்பட்ட ஒவ்வொரு நிமிடத்திற்கும் ஆகும் செலவை அளவிடுங்கள்.
Optional learning community: https://t.me/GyaanSetuAi
