AI பொழுதுபோக்குத் துறையின் உண்மையான கட்டமைப்பு

AI எழுத்தாளர்களையோ அல்லது ஸ்டுடியோக்களையோ மாற்றீடு செய்யுமா என்று கேட்பதை நிறுத்துங்கள். அந்த கேள்விகள் எதையும் உருவாக்க உங்களுக்கு உதவாது.

நீங்கள் ஒரு பொறியாளர் அல்லது வடிவமைப்பாளர் (architect) என்றால், நீங்கள் வேறு ஒரு கேள்வியைக் கேட்க வேண்டும். ஒருமுறை உற்பத்தி செய்யப்பட்டு விநியோகிக்கப்படுவதைத் தவிர்த்து, தேவைக்கேற்ப (on demand) உள்ளடக்கங்கள் உருவாக்கப்படும்போது, அதன் பின்னணி (backend) எப்படி இருக்கும்?

மாடல் (model) என்பது எளிதான பகுதி. தாமதம் (latency), மூலத் தன்மை (provenance) மற்றும் செலவு (cost) ஆகியவை கடினமான பகுதிகள்.

  1. ஊடாடும் தன்மை (Interactivity) என்பது ஒரு ஸ்ட்ரீமிங் (streaming) சிக்கலாகும்

தொகுப்பு உருவாக்கம் (Batch generation) எளிது. நீங்கள் ஒரு கிளிப்பை ஒரே இரவில் ரெண்டர் (render) செய்யலாம். ஆனால் ஒரு பயனர் ஒரு கதாபாத்திரத்துடன் ஊடாடும்போது, அதன் பதில் 200ms-க்குள் நிகழ வேண்டும்.

இந்த இலக்கை அடைய, நீங்கள் ஒரு API-ஐ மட்டும் அழைக்க முடியாது. நீங்கள் ஒரு தாமத வரம்பை (latency budget) நிர்வகிக்க வேண்டும்:

  • நெட்வொர்க் ரவுண்ட் ட்ரிப்: 40ms
  • டோக்கனைசேஷன்: 10ms
  • மாடல் இன்ஃபரன்ஸ்: 110ms
  • போஸ்ட்-புராசஸிங்: 25ms
  • ஜிட்டர் மார்ஜின்: 15ms

உங்களுக்கு எட்ஜ் பிளேஸ்மென்ட் (edge placement), KV-cache மறுபயன்பாடு மற்றும் ஸ்பெகுலேட்டிவ் டீகோடிங் (speculative decoding) தேவைப்படும். உங்கள் AI திட்டம் இப்போது ஒரு விநியோகிக்கப்பட்ட அமைப்புகள் (distributed systems) திட்டமாக மாறிவிட்டது.

  1. மூலத் தன்மை (Provenance) என்பது ஒரு கூடுதல் சிந்தனை அல்ல

உள்ளடக்கம் செயற்கையானதாக இருக்கும்போது, அதை யார் உருவாக்கினார்கள் மற்றும் எதைக் கொண்டு பயிற்சி அளித்தார்கள் என்பதை நீங்கள் அறிய வேண்டும். இதை நீங்கள் பிறகு சரிசெய்ய முடியாது. வம்சாவளி (lineage) இல்லாமல் நீங்கள் ஒரு மில்லியன் சொத்துக்களை (assets) உருவாக்கினால், அந்த வரலாறு என்றென்றும் போய்விடும்.

உங்கள் தரவு மாதிரியில் (data model) மூலத் தன்மையை நீங்கள் உருவாக்க வேண்டும். உருவாக்கும் தருணத்திலேயே அதன் பங்களிப்பு மற்றும் கையொப்பங்களை (attribution and signatures) பதிவு செய்யுங்கள். அவற்றை உங்கள் ஸ்கீமாவில் (schema) சேமிக்கவும். இது சட்ட ரீதியான அல்லது ராயல்டி கேள்விகளுக்கு விரைவாகப் பதிலளிக்க உதவும்.

  1. பொருளாதாரம் என்பது ஒரு உற்பத்தித் துறை சிக்கலாகும்

ஜெனரேட்டிவ் டெக்ஸ்ட் (Generative text) டோக்கன் கணக்கிலான செலவைப் பயன்படுத்துகிறது. ஜெனரேட்டிவ் வீடியோ நிமிடத்திற்கு கணக்கிலான செலவைப் பயன்படுத்துகிறது.

ஒரு நிமிட 4K வீடியோவிற்கு GPU-வினாடிகளில் உண்மையான செலவு உள்ளது. பெரும்பாலான நிறுவனங்கள் பார்க்க நன்றாக இருக்கும் ஆனால் பெரிய அளவில் செயல்படும்போது தோல்வியடையும் முன்னோட்டத் திட்டங்களை (pilots) நடத்துகின்றன, ஏனெனில் அதன் செலவு மிக அதிகம்.

வெற்றி பெற, உங்கள் இன்ஃபரன்ஸை (inference) ஒரு தொழிற்சாலை போலக் கையாள வேண்டும். பயன்பாடு (utilization) மற்றும் விளைச்சலை (yield) கண்காணிக்கவும். உங்கள் தரத்திற்குப் பொருத்தமான மிகச்சிறிய மாடலைப் பயன்படுத்தவும். பணத்தைச் சேமிக்க உருவாக்கப்பட்ட பகுதிகளை (segments) கேச் (cache) செய்யவும்.

மாடல் செய்திகளில் இடம்பிடிக்கும். ஆனால் கட்டமைப்புதான் (architecture) உண்மையில் எதை வெளியிடுவது என்பதைத் தீர்மானிக்கிறது.

உங்கள் அடுத்த வடிவமைப்பு ஆய்விற்கான (design review) சுருக்கம்:

  • ஊடாடும் தன்மையை ஒரு ஸ்ட்ரீமிங் சிஸ்டம் சவாலாகக் கருதுங்கள்.
  • முதல் நாளிலிருந்தே மூலத் தன்மையை ஒரு கையொப்பமிடப்பட்ட, சேமிக்கப்பட்ட புலமாக (field) ஆக்குங்கள்.
  • உங்கள் அம்சம் நிலைத்திருப்பதை உறுதி செய்ய, வழங்கப்பட்ட ஒவ்வொரு நிமிடத்திற்கும் ஆகும் செலவை அளவிடுங்கள்.

Source: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

Optional learning community: https://t.me/GyaanSetuAi