AI मनोरंजनमागील खरी आर्किटेक्चर

AI लेखक किंवा स्टुडिओंची जागा घेईल का, असे विचारणे थांबवा. हे प्रश्न तुम्हाला काहीही निर्माण करण्यास मदत करत नाहीत.

जर तुम्ही इंजिनिअर किंवा आर्किटेक्ट असाल, तर तुम्हाला वेगळा प्रश्न विचारायला हवा. जेव्हा कंटेंट एकदा तयार करून वितरित करण्याऐवजी 'ऑन डिमांड' (मागणीनुसार) तयार केला जातो, तेव्हा त्याचे बॅकएंड (backend) कसे दिसते?

मॉडेल हा सोपा भाग आहे. लेटन्सी (latency), प्रोव्हेनन्स (provenance) आणि खर्च (cost) हे कठीण भाग आहेत.

१. इंटरअॅक्टिव्हिटी ही स्ट्रीमिंगची समस्या आहे

बॅच जनरेशन (Batch generation) सोपे आहे. तुम्ही रात्रभर एखादा क्लिप रेंडर करू शकता. पण जर वापरकर्त्याने एखाद्या पात्राशी संवाद साधला, तर प्रतिसाद २०० मिलीसेकंदात (200ms) मिळणे आवश्यक आहे.

हे लक्ष्य गाठण्यासाठी, तुम्ही फक्त API कॉल करून चालणार नाही. तुम्हाला लेटन्सी बजेट (latency budget) व्यवस्थापित करावे लागेल:

  • नेटवर्क राउंड ट्रिप: 40ms
  • टोकनायझेशन: 10ms
  • मॉडेल इन्फरन्स: 110ms
  • पोस्ट-प्रोसेसिंग: 25ms
  • जिटर मार्जिन: 15ms

तुम्हाला एज प्लेसमेंट (edge placement), KV-cache रीयुज आणि स्पेक्युलेटिव्ह डिकोडिंगची (speculative decoding) गरज आहे. तुमचा AI प्रकल्प आता एक डिस्ट्रिब्युटेड सिस्टम्स (distributed systems) प्रकल्प बनला आहे.

२. प्रोव्हेनन्स ही नंतर विचार करायची गोष्ट नाही

जेव्हा कंटेंट सिंथेटिक (synthetic) असतो, तेव्हा तो कोणी बनवला आणि त्याला कशावर प्रशिक्षित केले आहे, हे तुम्हाला माहित असणे आवश्यक आहे. तुम्ही हे नंतर दुरुस्त करू शकत नाही. जर तुम्ही वंशवृक्ष (lineage) न ठेवता लाखो मालमत्ता (assets) तयार केल्या, तर तो इतिहास कायमचा नष्ट होतो.

तुम्हाला तुमच्या डेटा मॉडेलमध्ये प्रोव्हेनन्स समाविष्ट करणे आवश्यक आहे. जनरेशनच्या क्षणीच अट्रिब्युशन (attribution) आणि सिग्नेचर कॅप्चर करा. ते तुमच्या स्कीमामध्ये (schema) स्टोअर करा. यामुळे तुम्हाला कायदेशीर किंवा रॉयल्टीशी संबंधित प्रश्नांची उत्तरे क्वेरी वेगाने (query speed) देता येतील.

३. अर्थशास्त्र ही मॅन्युफॅक्चरिंगची समस्या आहे

जनरेटिव्ह टेक्स्टमध्ये प्रति टोकन खर्च येतो. जनरेटिव्ह व्हिडिओमध्ये प्रति मिनिट खर्च येतो.

४K व्हिडिओच्या एका मिनिटाचा खरा खर्च GPU-सेकंदमध्ये मोजला जातो. बहुतेक कंपन्या पायलट प्रोजेक्ट्स राबवतात जे दिसायला उत्तम असतात पण मोठ्या प्रमाणावर (scale) अपयशी ठरतात कारण खर्च खूप जास्त असतो.

यशस्वी होण्यासाठी, तुम्हाला तुमच्या इन्फरन्सला (inference) एखाद्या कारखान्याप्रमाणे इन्स्ट्रुमेंट (instrument) करावे लागेल. युटिलायझेशन (utilization) आणि यील्ड (yield) ट्रॅक करा. तुमच्या गुणवत्तेच्या निकषात बसणारे सर्वात लहान मॉडेल वापरा. पैसे वाचवण्यासाठी जनरेट केलेले सेगमेंट्स कॅश (cache) करा.

मॉडेलला हेडलाईन्स मिळतात. पण प्रत्यक्षात काय वितरित केले जाते (ships), हे आर्किटेक्चर ठरवते.

तुमच्या पुढील डिझाइन रिव्ह्यूसाठी सारांश:

  • इंटरअॅक्टिव्हिटीला स्ट्रीमिंग सिस्टम्सच्या आव्हानाप्रमाणे हाताळा.
  • पहिल्या दिवसापासून प्रोव्हेनन्सला एक स्वाक्षरी केलेले (signed) आणि स्टोअर केलेले फील्ड बनवा.
  • तुमचे फीचर टिकून राहील याची खात्री करण्यासाठी प्रति वितरित मिनिट खर्च मोजा.

स्रोत: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi