AI मनोरंजन के पीछे का वास्तविक आर्किटेक्चर

यह पूछना बंद करें कि क्या AI लेखकों या स्टूडियो की जगह ले लेगा। ऐसे सवाल आपको कुछ भी बनाने में मदद नहीं करते।

यदि आप एक इंजीनियर या आर्किटेक्ट हैं, तो आपको एक अलग सवाल पूछना चाहिए। जब कंटेंट को एक बार बनाकर वितरित करने के बजाय मांग पर (on demand) बनाया जाता है, तो उसका बैकएंड कैसा दिखता है?

मॉडल आसान हिस्सा है। कठिन हिस्से हैं लेटेंसी (latency), प्रोवेनेंस (provenance) और लागत (cost)।

  1. इंटरएक्टिविटी एक स्ट्रीमिंग समस्या है

बैच जनरेशन आसान है। आप रातों-रात एक क्लिप रेंडर कर सकते हैं। लेकिन यदि कोई उपयोगकर्ता किसी पात्र (character) के साथ इंटरैक्ट करता है, तो प्रतिक्रिया 200ms के भीतर होनी चाहिए।

इस लक्ष्य को प्राप्त करने के लिए, आप केवल एक API कॉल नहीं कर सकते। आपको एक लेटेंसी बजट प्रबंधित करना होगा:

  • नेटवर्क राउंड ट्रिप: 40ms
  • टोकनाइज़ेशन: 10ms
  • मॉडल इन्फरेंस: 110ms
  • पोस्ट-प्रोसेसिंग: 25ms
  • जिटर मार्जिन: 15ms

आपको एज प्लेसमेंट (edge placement), KV-cache रियूज और स्पेक्युलेटिव डिकोडिंग की आवश्यकता है। आपका AI प्रोजेक्ट अब एक डिस्ट्रिब्यूटेड सिस्टम्स प्रोजेक्ट है।

  1. प्रोवेनेंस कोई बाद में सोचने वाली चीज़ नहीं है

जब कंटेंट सिंथेटिक (synthetic) हो, तो आपको पता होना चाहिए कि इसे किसने बनाया और इसे किस चीज़ ने प्रशिक्षित किया। आप इसे बाद में ठीक नहीं कर सकते। यदि आप बिना लिनिएज (lineage) के दस लाख एसेट्स जनरेट करते हैं, तो वह इतिहास हमेशा के लिए खो जाता है।

आपको अपने डेटा मॉडल में प्रोवेनेंस को शामिल करना चाहिए। जनरेशन के क्षण में ही एट्रिब्यूशन (attribution) और सिग्नेचर को कैप्चर करें। उन्हें अपने स्कीमा में स्टोर करें। यह आपको क्वेरी स्पीड पर कानूनी या रॉयल्टी संबंधी सवालों के जवाब देने की अनुमति देता है।

  1. इकोनॉमिक्स एक मैन्युफैक्चरिंग समस्या है

जनरेटिव टेक्स्ट में प्रति टोकन लागत लगती है। जनरेटिव वीडियो में प्रति मिनट लागत लगती है।

4K वीडियो के एक मिनट की वास्तविक लागत GPU-सेकंड में होती है। अधिकांश कंपनियाँ ऐसे पायलट चलाती हैं जो दिखने में तो शानदार होते हैं लेकिन बड़े पैमाने (scale) पर विफल हो जाते हैं क्योंकि लागत बहुत अधिक होती है।

जीतने के लिए, आपको अपने इन्फरेंस को एक फैक्ट्री की तरह इंस्ट्रूमेंट (instrument) करना होगा। यूटिलाइजेशन और यील्ड (yield) को ट्रैक करें। उस सबसे छोटे मॉडल का उपयोग करें जो आपके क्वालिटी बार को पूरा करता हो। पैसे बचाने के लिए जनरेटेड सेगमेंट को कैश (cache) करें।

मॉडल सुर्खियों में आता है। आर्किटेक्चर तय करता है कि वास्तव में क्या शिप (ship) होगा।

आपके अगले डिज़ाइन रिव्यू के लिए सारांश:

  • इंटरएक्टिविटी को एक स्ट्रीमिंग सिस्टम चुनौती के रूप में मानें।
  • पहले दिन से ही प्रोवेनेंस को एक हस्ताक्षरित (signed), स्टोर किया गया फ़ील्ड बनाएं।
  • यह सुनिश्चित करने के लिए कि आपका फीचर टिका रहे, प्रति डिलीवर किया गया मिनट लागत मापें।

स्रोत: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi