Generative AI สร้างได้เพียงรูปทรง ไม่ใช่เกม
ผมได้ลองทดสอบเครื่องมือ "prompt-to-build" ตัวใหม่ใน Minecraft ผมคาดหวังว่าจะได้เห็นการปฏิวัติวงการ แต่สิ่งที่ได้กลับมาคือแผนที่ของกำแพงผืนหนึ่ง
เครื่องมือนี้สามารถสร้างทรงกลมหรือหอคอยได้ภายในเวลาไม่กี่นาที ซึ่งดูดีทีเดียว แต่ทันทีที่ผมสั่งด้วยกฎเกณฑ์ที่เฉพาะเจาะจง มันก็ล้มเหลวทันที
ผมสั่งให้สร้างกระท่อมไม้ขนาด 15x15 พร้อมประตูที่หันไปทางทิศใต้ แต่ AI กลับให้กำแพงสีเทาที่ไม่มีประตูมา มันขนาดผิด ผิดสัดส่วน ไม่มีไม้เลย และมันใช้งานไม่ได้เลย
นี่คือปัญหาหลัก:
Generative models คือเครื่องยนต์แห่งความสมจริง (plausibility engines) แต่เกมต้องการเครื่องยนต์แห่งความถูกต้อง (correctness engines)
โมเดลสามารถสร้างสิ่งที่ดูเหมือนจะ "ถูกต้อง" ได้ แต่เกมต้องการสิ่งที่ "ถูกต้อง" จริงๆ การขยายขนาดโมเดลให้ใหญ่ขึ้นจะไม่ช่วยแก้ปัญหานี้ คุณไม่สามารถใช้วิธีการขยายขนาดเพื่อเปลี่ยนจากสิ่งที่ "ดูเหมือนบ้าน" ให้กลายเป็น "บ้านที่มีประตูใช้งานได้จริง" ได้
ช่องว่างนี้เกิดขึ้นจากองค์ประกอบสามอย่างที่ขาดหายไป:
- ข้อจำกัดแบบไม่ต่อเนื่อง (Discrete constraints): โมเดลอาจจะประมาณค่าคำว่า "เล็ก" ได้ แต่ไม่สามารถรับประกันได้ว่าต้องเป็น "15 บล็อกพอดี"
- โครงสร้างเชิงองค์ประกอบ (Compositional structure): โมเดลสามารถวาดรูปทรงได้ แต่ไม่สามารถจัดการฉากที่มีวัตถุหลายชิ้นที่มีความสัมพันธ์ต่อกันได้
- ความถูกต้องเชิงฟังก์ชัน (Functional correctness): โมเดลไม่รู้ว่าผู้เล่นจะสามารถเดินผ่านประตูรั้วได้จริงหรือไม่ มันรู้แค่ว่าประตูรั้วมีลักษณะอย่างไร
เพื่อแก้ไขปัญหานี้ เราต้องเลิกใช้โมเดลแบบเบ็ดเสร็จในตัวเดียว (monolithic models) เราต้องการ Pipeline ที่แยกส่วนที่ต่อเนื่อง (continuous) ออกจากส่วนที่ไม่ต่อเนื่อง (discrete):
- วางแผน (Plan): ใช้ symbolic planner เพื่อเปลี่ยน prompt ให้เป็นรายการกฎเกณฑ์ที่เข้มงวดและ scene graph
- สร้าง (Generate): ใช้ generative models เพื่อสร้างรูปทรงแต่ละชิ้นสำหรับวัตถุแต่ละอย่าง
- จัดวาง (Place): ใช้ solver เพื่อจัดเรียงรูปทรงเหล่านั้นให้เป็นไปตามกฎเกณฑ์ทั้งหมด
- ตรวจสอบ (Verify): ใช้ checker เพื่อพิสูจน์ว่าผลลัพธ์ตรงตามแผนเดิมที่วางไว้
ตัวสร้าง (Generator) มอบความสวยงาม ส่วนโครงสร้าง (Structure) มอบความถูกต้อง
อนาคตของคอนเทนต์จาก AI ไม่ใช่โมเดลยักษ์เพียงตัวเดียว แต่คือระบบของเครื่องมือเฉพาะทางที่ทำงานร่วมกัน ผู้ชนะจะไม่ใช่ผู้ที่มีเครื่องมือสร้างรูปทรงที่ดีที่สุด แต่จะเป็นผู้ที่มีวงจรการตรวจสอบ (verification loop) ที่ดีที่สุด
Optional learning community: https://t.me/GyaanSetuAi
