สถาปัตยกรรมที่แท้จริงเบื้องหลังความบันเทิงด้วย AI

เลิกถามว่า AI จะมาแทนที่นักเขียนหรือสตูดิโอหรือไม่ คำถามเหล่านั้นไม่ได้ช่วยให้คุณสร้างอะไรขึ้นมาได้เลย

หากคุณเป็นวิศวกรหรือสถาปนิก คุณต้องตั้งคำถามที่ต่างออกไป ระบบหลังบ้านจะมีหน้าตาเป็นอย่างไร เมื่อคอนเทนต์ถูกสร้างขึ้นตามความต้องการ (on demand) แทนที่จะเป็นการผลิตครั้งเดียวแล้วนำไปเผยแพร่?

ตัวโมเดลคือส่วนที่ง่าย ส่วนที่ยากคือความหน่วง (latency), ที่มาของข้อมูล (provenance) และต้นทุน (cost)

1. การโต้ตอบคือปัญหาด้านการสตรีมมิ่ง

การสร้างแบบ Batch นั้นง่าย คุณสามารถเรนเดอร์คลิปทิ้งไว้ข้ามคืนได้ แต่ถ้าผู้ใช้โต้ตอบกับตัวละคร การตอบสนองต้องเกิดขึ้นภายใน 200ms

เพื่อให้บรรลุเป้าหมายนี้ คุณไม่สามารถแค่เรียกใช้ API ได้ แต่คุณต้องบริหารจัดการงบประมาณความหน่วง (latency budget):

  • Network round trip: 40ms
  • Tokenization: 10ms
  • Model inference: 110ms
  • Post-processing: 25ms
  • Jitter margin: 15ms

คุณจำเป็นต้องมีการวางระบบที่ Edge, การนำ KV-cache กลับมาใช้ใหม่ และการทำ speculative decoding โปรเจกต์ AI ของคุณได้กลายเป็นโปรเจกต์ระบบกระจายตัว (distributed systems) ไปแล้ว

2. ที่มาของข้อมูล (Provenance) ไม่ใช่เรื่องที่จะมาคิดทีหลัง

เมื่อคอนเทนต์เป็นสิ่งที่สังเคราะห์ขึ้น คุณต้องรู้ว่าใครเป็นคนสร้างและใช้อะไรในการฝึกฝน (train) คุณไม่สามารถมาแก้ไขเรื่องนี้ในภายหลังได้ หากคุณสร้างสินทรัพย์ (assets) นับล้านชิ้นโดยไม่มีประวัติที่มา ประวัติเหล่านั้นจะหายไปตลอดกาล

คุณต้องสร้าง provenance เข้าไปในโมเดลข้อมูลของคุณ บันทึกการอ้างอิง (attribution) และลายเซ็นดิจิทัล (signatures) ในขณะที่สร้างขึ้นทันที และจัดเก็บไว้ใน schema ของคุณ สิ่งนี้จะช่วยให้คุณตอบคำถามทางกฎหมายหรือเรื่องค่าลิขสิทธิ์ได้ด้วยความเร็วระดับการคิวรี (query speed)

3. เศรษฐศาสตร์คือปัญหาด้านการผลิต

Generative text ใช้ต้นทุนต่อ token ส่วน Generative video ใช้ต้นทุนต่อนาที

วิดีโอ 4K หนึ่งนาทีมีต้นทุนจริงในรูปแบบของ GPU-seconds บริษัทส่วนใหญ่ทำโปรเจกต์นำร่อง (pilots) ที่ดูดีมาก แต่ล้มเหลวเมื่อต้องขยายขนาด (scale) เพราะต้นทุนสูงเกินไป

เพื่อที่จะชนะ คุณต้องวางระบบการประมวลผล (inference) ให้เหมือนกับโรงงาน ติดตามการใช้งาน (utilization) และผลผลิต (yield) ใช้โมเดลที่เล็กที่สุดที่ยังคงรักษามาตรฐานคุณภาพของคุณไว้ได้ และทำ caching ส่วนที่สร้างแล้วเพื่อประหยัดเงิน

โมเดลคือสิ่งที่ได้พาดหัวข่าว แต่สถาปัตยกรรมคือสิ่งที่ตัดสินว่าอะไรจะถูกส่งออกไปใช้งานได้จริง

สรุปสำหรับการประชุมทบทวนการออกแบบ (design review) ครั้งต่อไปของคุณ:

  • มองว่าการโต้ตอบคือความท้าทายของระบบสตรีมมิ่ง
  • กำหนดให้ provenance เป็นฟิลด์ที่มีการลงลายเซ็นและจัดเก็บไว้ตั้งแต่วันแรก
  • วัดต้นทุนต่อนาทีที่ส่งมอบ เพื่อให้มั่นใจว่าฟีเจอร์ของคุณจะอยู่รอดได้

Source: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

Optional learning community: https://t.me/GyaanSetuAi