สถาปัตยกรรมที่แท้จริงเบื้องหลังความบันเทิงแบบ AI

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 สัปดาห์ที่ผ่านมา2min read

สถาปัตยกรรมที่แท้จริงเบื้องหลังความบันเทิงแบบ AI

In this article

สถาปัตยกรรมที่แท้จริงเบื้องหลังความบันเทิงด้วย AI

เลิกถามว่า AI จะมาแทนที่นักเขียนหรือสตูดิโอหรือไม่ คำถามเหล่านั้นไม่ได้ช่วยให้คุณสร้างอะไรขึ้นมาได้เลย

หากคุณเป็นวิศวกรหรือสถาปนิก คุณต้องตั้งคำถามที่ต่างออกไป ระบบหลังบ้านจะมีหน้าตาเป็นอย่างไร เมื่อคอนเทนต์ถูกสร้างขึ้นตามความต้องการ (on demand) แทนที่จะเป็นการผลิตครั้งเดียวแล้วนำไปเผยแพร่?

ตัวโมเดลคือส่วนที่ง่าย ส่วนที่ยากคือความหน่วง (latency), ที่มาของข้อมูล (provenance) และต้นทุน (cost)

1. การโต้ตอบคือปัญหาด้านการสตรีมมิ่ง

การสร้างแบบ Batch นั้นง่าย คุณสามารถเรนเดอร์คลิปทิ้งไว้ข้ามคืนได้ แต่ถ้าผู้ใช้โต้ตอบกับตัวละคร การตอบสนองต้องเกิดขึ้นภายใน 200ms

เพื่อให้บรรลุเป้าหมายนี้ คุณไม่สามารถแค่เรียกใช้ API ได้ แต่คุณต้องบริหารจัดการงบประมาณความหน่วง (latency budget):

Network round trip: 40ms
Tokenization: 10ms
Model inference: 110ms
Post-processing: 25ms
Jitter margin: 15ms

คุณจำเป็นต้องมีการวางระบบที่ Edge, การนำ KV-cache กลับมาใช้ใหม่ และการทำ speculative decoding โปรเจกต์ AI ของคุณได้กลายเป็นโปรเจกต์ระบบกระจายตัว (distributed systems) ไปแล้ว

2. ที่มาของข้อมูล (Provenance) ไม่ใช่เรื่องที่จะมาคิดทีหลัง

เมื่อคอนเทนต์เป็นสิ่งที่สังเคราะห์ขึ้น คุณต้องรู้ว่าใครเป็นคนสร้างและใช้อะไรในการฝึกฝน (train) คุณไม่สามารถมาแก้ไขเรื่องนี้ในภายหลังได้ หากคุณสร้างสินทรัพย์ (assets) นับล้านชิ้นโดยไม่มีประวัติที่มา ประวัติเหล่านั้นจะหายไปตลอดกาล

คุณต้องสร้าง provenance เข้าไปในโมเดลข้อมูลของคุณ บันทึกการอ้างอิง (attribution) และลายเซ็นดิจิทัล (signatures) ในขณะที่สร้างขึ้นทันที และจัดเก็บไว้ใน schema ของคุณ สิ่งนี้จะช่วยให้คุณตอบคำถามทางกฎหมายหรือเรื่องค่าลิขสิทธิ์ได้ด้วยความเร็วระดับการคิวรี (query speed)

3. เศรษฐศาสตร์คือปัญหาด้านการผลิต

Generative text ใช้ต้นทุนต่อ token ส่วน Generative video ใช้ต้นทุนต่อนาที

วิดีโอ 4K หนึ่งนาทีมีต้นทุนจริงในรูปแบบของ GPU-seconds บริษัทส่วนใหญ่ทำโปรเจกต์นำร่อง (pilots) ที่ดูดีมาก แต่ล้มเหลวเมื่อต้องขยายขนาด (scale) เพราะต้นทุนสูงเกินไป

เพื่อที่จะชนะ คุณต้องวางระบบการประมวลผล (inference) ให้เหมือนกับโรงงาน ติดตามการใช้งาน (utilization) และผลผลิต (yield) ใช้โมเดลที่เล็กที่สุดที่ยังคงรักษามาตรฐานคุณภาพของคุณไว้ได้ และทำ caching ส่วนที่สร้างแล้วเพื่อประหยัดเงิน

โมเดลคือสิ่งที่ได้พาดหัวข่าว แต่สถาปัตยกรรมคือสิ่งที่ตัดสินว่าอะไรจะถูกส่งออกไปใช้งานได้จริง

สรุปสำหรับการประชุมทบทวนการออกแบบ (design review) ครั้งต่อไปของคุณ:

มองว่าการโต้ตอบคือความท้าทายของระบบสตรีมมิ่ง
กำหนดให้ provenance เป็นฟิลด์ที่มีการลงลายเซ็นและจัดเก็บไว้ตั้งแต่วันแรก
วัดต้นทุนต่อนาทีที่ส่งมอบ เพื่อให้มั่นใจว่าฟีเจอร์ของคุณจะอยู่รอดได้

Source: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

Optional learning community: https://t.me/GyaanSetuAi

สถาปัตยกรรมที่แท้จริงเบื้องหลังความบันเทิงแบบ AI

สถาปัตยกรรมที่แท้จริงเบื้องหลังความบันเทิงด้วย AI

1. การโต้ตอบคือปัญหาด้านการสตรีมมิ่ง

2. ที่มาของข้อมูล (Provenance) ไม่ใช่เรื่องที่จะมาคิดทีหลัง

3. เศรษฐศาสตร์คือปัญหาด้านการผลิต

Continue reading

ยิ่ง AI เขียนโค้ดมากขึ้นเท่าไหร่ สถาปัตยกรรมก็ยิ่งมีความสำคัญมากขึ้นเท่านั้น

The Frontend Engineer Will Not Be Replaced by AI

นักพัฒนา: จากช่างเทคนิคสู่สถาปนิกผลิตภัณฑ์