Generative AI สร้างได้เพียงรูปทรง ไม่ใช่เกม

ผมได้ลองทดสอบเครื่องมือ "prompt-to-build" ตัวใหม่ใน Minecraft ผมคาดหวังว่าจะได้เห็นการปฏิวัติวงการ แต่สิ่งที่ได้กลับมาคือแผนที่ของกำแพงผืนหนึ่ง

เครื่องมือนี้สามารถสร้างทรงกลมหรือหอคอยได้ภายในเวลาไม่กี่นาที ซึ่งดูดีทีเดียว แต่ทันทีที่ผมสั่งด้วยกฎเกณฑ์ที่เฉพาะเจาะจง มันก็ล้มเหลวทันที

ผมสั่งให้สร้างกระท่อมไม้ขนาด 15x15 พร้อมประตูที่หันไปทางทิศใต้ แต่ AI กลับให้กำแพงสีเทาที่ไม่มีประตูมา มันขนาดผิด ผิดสัดส่วน ไม่มีไม้เลย และมันใช้งานไม่ได้เลย

นี่คือปัญหาหลัก:

Generative models คือเครื่องยนต์แห่งความสมจริง (plausibility engines) แต่เกมต้องการเครื่องยนต์แห่งความถูกต้อง (correctness engines)

โมเดลสามารถสร้างสิ่งที่ดูเหมือนจะ "ถูกต้อง" ได้ แต่เกมต้องการสิ่งที่ "ถูกต้อง" จริงๆ การขยายขนาดโมเดลให้ใหญ่ขึ้นจะไม่ช่วยแก้ปัญหานี้ คุณไม่สามารถใช้วิธีการขยายขนาดเพื่อเปลี่ยนจากสิ่งที่ "ดูเหมือนบ้าน" ให้กลายเป็น "บ้านที่มีประตูใช้งานได้จริง" ได้

ช่องว่างนี้เกิดขึ้นจากองค์ประกอบสามอย่างที่ขาดหายไป:

  • ข้อจำกัดแบบไม่ต่อเนื่อง (Discrete constraints): โมเดลอาจจะประมาณค่าคำว่า "เล็ก" ได้ แต่ไม่สามารถรับประกันได้ว่าต้องเป็น "15 บล็อกพอดี"
  • โครงสร้างเชิงองค์ประกอบ (Compositional structure): โมเดลสามารถวาดรูปทรงได้ แต่ไม่สามารถจัดการฉากที่มีวัตถุหลายชิ้นที่มีความสัมพันธ์ต่อกันได้
  • ความถูกต้องเชิงฟังก์ชัน (Functional correctness): โมเดลไม่รู้ว่าผู้เล่นจะสามารถเดินผ่านประตูรั้วได้จริงหรือไม่ มันรู้แค่ว่าประตูรั้วมีลักษณะอย่างไร

เพื่อแก้ไขปัญหานี้ เราต้องเลิกใช้โมเดลแบบเบ็ดเสร็จในตัวเดียว (monolithic models) เราต้องการ Pipeline ที่แยกส่วนที่ต่อเนื่อง (continuous) ออกจากส่วนที่ไม่ต่อเนื่อง (discrete):

  1. วางแผน (Plan): ใช้ symbolic planner เพื่อเปลี่ยน prompt ให้เป็นรายการกฎเกณฑ์ที่เข้มงวดและ scene graph
  2. สร้าง (Generate): ใช้ generative models เพื่อสร้างรูปทรงแต่ละชิ้นสำหรับวัตถุแต่ละอย่าง
  3. จัดวาง (Place): ใช้ solver เพื่อจัดเรียงรูปทรงเหล่านั้นให้เป็นไปตามกฎเกณฑ์ทั้งหมด
  4. ตรวจสอบ (Verify): ใช้ checker เพื่อพิสูจน์ว่าผลลัพธ์ตรงตามแผนเดิมที่วางไว้

ตัวสร้าง (Generator) มอบความสวยงาม ส่วนโครงสร้าง (Structure) มอบความถูกต้อง

อนาคตของคอนเทนต์จาก AI ไม่ใช่โมเดลยักษ์เพียงตัวเดียว แต่คือระบบของเครื่องมือเฉพาะทางที่ทำงานร่วมกัน ผู้ชนะจะไม่ใช่ผู้ที่มีเครื่องมือสร้างรูปทรงที่ดีที่สุด แต่จะเป็นผู้ที่มีวงจรการตรวจสอบ (verification loop) ที่ดีที่สุด

Source: https://dev.to/harrisonsec/generative-ai-builds-shapes-not-games-the-constraint-gap-and-the-architecture-that-closes-it-2e30

Optional learning community: https://t.me/GyaanSetuAi