Cách General Intuition sử dụng trò chơi điện tử để xây dựng AI cho thế giới thực

General Intuition đang nỗ lực thực hiện một sự chuyển đổi mô hình (paradigm shift) khổng lồ trong lĩnh vực robot bằng cách sử dụng các tập dữ liệu trò chơi điện tử khổng lồ để huấn luyện các mô hình tác nhân (agentic models) cho thế giới vật lý. Với vòng gọi vốn mới trị giá 320 triệu USD, startup này đang đặt cược rằng "dữ liệu hành động" (action data) tìm thấy trong trò chơi điện tử chính là mắt xích còn thiếu cho trí tuệ nhân tạo.

Sức mạnh của Nhãn hành động và Suy luận Không-Thời gian

Trong khi nhiều nhà nghiên cứu AI cố gắng huấn luyện các mô hình chỉ bằng cách quan sát các thước phim video, CEO của General Intuition, Pim de Witte, lập luận rằng chỉ riêng video là không đủ. Lợi thế cạnh tranh của công ty nằm ở việc tiếp cận dữ liệu độc quyền từ Medal, một nền tảng nơi người dùng chia sẻ các đoạn clip trò chơi điện tử.

Khác với video tiêu chuẩn, các clip này chứa các "nhãn hành động" (action labels) được nhúng sẵn—những bản ghi chính xác về việc người chơi đã nhấn nút nào và vào chính xác thời điểm nào. Điều này cho phép mô hình vượt xa việc chỉ nhận dạng khuôn mẫu đơn thuần; nó học được khả năng suy luận không-thời gian (spatial-temporal reasoning). Bằng cách hiểu mối liên hệ trực tiếp giữa một đầu vào cụ thể (một hành động) và sự thay đổi kết quả trong môi trường (phản ứng), AI bắt đầu nắm bắt được tính nhân quả. Điều này cho phép mô hình phân biệt được "bản thân" với "môi trường", một yêu cầu cơ bản đối với bất kỳ tác nhân tự hành nào.

Từ Fortnite đến Robot bốn chân

Tham vọng kỹ thuật của công ty là tạo ra một mô hình duy nhất có khả năng tổng quát hóa trên các lĩnh vực khác nhau: lối chơi (gameplay), mô phỏng và hiện thân vật lý (physical embodiment). Trong các buổi trình diễn gần đây, một tác nhân AI được huấn luyện trên lối chơi game đã có thể điều hướng trong các môi trường ảo phức tạp, hiểu rằng tường là các vật thể rắn và bóng đổ thay đổi theo chuyển động của mặt trời.

Quan trọng là, "bộ não" này đang được chuyển đổi trực tiếp sang phần cứng. Công ty đã trình diễn một robot bốn chân sử dụng cùng một mô hình đang vận hành các tác nhân chơi game của mình. Đáng chú ý, nhóm nghiên cứu báo cáo rằng chỉ mất tám phút dữ liệu robot thực tế—được thu thập trên các đường phố thực—để tinh chỉnh (fine-tune) mô hình cho việc điều hướng của robot. Điều này cho thấy phần việc nặng nhọc nhất là học về vật lý và nhận thức không gian đang được thực hiện trong "phòng tập" (gym) của các trò chơi điện tử, giúp việc triển khai trong thế giới thực trở nên hiệu quả hơn đáng kể.

Một vụ đặt cược 2,3 tỷ USD vào các Tác nhân Tổng quát

Quy mô của tham vọng này được phản ánh qua định giá của công ty. General Intuition gần đây đã huy động được 320 triệu USD với mức định giá 2,3 tỷ USD, nâng tổng số vốn huy động được đã công bố lên 454 triệu USD. Vòng gọi vốn này được dẫn dắt bởi Khosla Ventures, với sự tham gia đáng kể từ General Catalyst, Jeff Bezos, Eric Schmidt, cùng các nhà nghiên cứu từ Google DeepMind và MIT.

Nguồn vốn này được dành riêng cho hai mục tiêu chính: mở rộng năng lực tính toán thông qua quan hệ đối tác với CoreWeave và giúp API của họ có sẵn rộng rãi hơn vào cuối mùa hè. Đối với các nhà đầu tư như Vinod Khosla, mục tiêu không chỉ là tự động hóa tốt hơn, mà là sự trỗi dậy của "trực giác AI" (AI intuition)—một khả năng giống như con người để điều hướng thế giới thông qua sự hiểu biết, thay vì chỉ tuân theo các hướng dẫn đã được lập trình.

Các điểm chính cần lưu ý

  • Huấn luyện dựa trên hành động: General Intuition sử dụng các "nhãn hành động" nhấn nút từ các clip chơi game để dạy AI về tính nhân quả, vượt qua những hạn chế của việc chỉ huấn luyện bằng video.
  • Mô phỏng có khả năng mở rộng: Bằng cách sử dụng trò chơi điện tử như một "phòng tập", công ty có thể huấn luyện khả năng suy luận không-thời gian phức tạp mà không tốn kém chi phí khổng lồ để thu thập dữ liệu robot trong thế giới thực.
  • Sự hậu thuẫn lớn từ các tổ chức: Với mức định giá 2,3 tỷ USD và sự hỗ trợ từ các nhân vật như Jeff Bezos và Eric Schmidt, công ty đang định vị mình là một nhân tố nền tảng trong kỷ nguyên mô hình thế giới (world model).