Generative AI chỉ xây dựng nên các hình khối, chứ không phải trò chơi
Tôi đã thử nghiệm một công cụ "prompt-to-build" mới trong Minecraft. Tôi đã kỳ vọng vào một cuộc cách mạng. Thay vào đó, tôi chỉ nhận được một bản đồ của một bức tường.
Công cụ này có thể tạo ra một hình cầu hoặc một tòa tháp chỉ trong một phút. Chúng trông khá ổn. Nhưng ngay khi tôi yêu cầu các quy tắc cụ thể, nó đã thất bại.
Tôi yêu cầu một ngôi nhà gỗ nhỏ kích thước 15x15 với cửa hướng về phía nam. AI đã đưa cho tôi một bức tường xám không có cửa. Nó sai kích thước. Nó không có gỗ. Nó hoàn toàn vô dụng.
Đây chính là vấn đề cốt lõi:
Các mô hình tạo sinh là những bộ máy tạo ra sự hợp lý (plausibility engines). Trò chơi cần những bộ máy đảm bảo tính chính xác (correctness engines).
Một mô hình có thể tạo ra thứ gì đó trông có vẻ "đúng". Nhưng một trò chơi cần thứ gì đó thực sự "đúng". Việc mở rộng quy mô mô hình lớn hơn sẽ không giải quyết được vấn đề này. Bạn không thể dùng việc mở rộng quy mô để chuyển đổi từ "trông giống một ngôi nhà" sang "là một ngôi nhà có cánh cửa hoạt động được".
Khoảng cách này tồn tại do thiếu ba yếu tố:
- Các ràng buộc rời rạc (Discrete constraints): Một mô hình có thể xấp xỉ khái niệm "nhỏ", nhưng nó không thể đảm bảo "chính xác 15 khối".
- Cấu trúc thành phần (Compositional structure): Một mô hình có thể vẽ một hình khối, nhưng nó không thể quản lý một cảnh gồm nhiều vật thể có mối liên hệ với nhau.
- Tính chính xác về chức năng (Functional correctness): Một mô hình không biết liệu người chơi có thực sự đi qua được một cánh cổng hay không. Nó chỉ biết một cánh cổng trông như thế nào.
Để khắc phục điều này, chúng ta phải ngừng sử dụng các mô hình nguyên khối (monolithic models). Chúng ta cần một quy trình (pipeline) tách biệt các yếu tố liên tục khỏi các yếu tố rời rạc:
- Lập kế hoạch (Plan): Sử dụng một bộ lập kế hoạch biểu tượng (symbolic planner) để chuyển đổi một prompt thành một danh sách các quy tắc nghiêm ngặt và một đồ thị cảnh (scene graph).
- Tạo (Generate): Sử dụng các mô hình tạo sinh để tạo ra các hình khối riêng lẻ cho từng vật thể.
- Sắp đặt (Place): Sử dụng một bộ giải (solver) để sắp xếp các hình khối đó sao cho chúng đáp ứng tất cả các quy tắc.
- Xác minh (Verify): Sử dụng một bộ kiểm tra (checker) để chứng minh kết quả khớp với kế hoạch ban đầu.
Bộ tạo (generator) mang lại vẻ đẹp. Cấu trúc (structure) mang lại tính chính xác.
Tương lai của nội dung AI không phải là một mô hình khổng lồ duy nhất. Đó là một hệ thống gồm các công cụ chuyên dụng làm việc cùng nhau. Người chiến thắng sẽ không phải là người có bộ tạo hình khối tốt nhất. Họ sẽ là người có vòng lặp xác minh (verification loop) tốt nhất.
Optional learning community: https://t.me/GyaanSetuAi
