XDOF xuất hiện nhằm giải quyết nút thắt dữ liệu quan trọng trong Physical AI

Khi cuộc đua giành lợi thế về trí tuệ vật lý (physical intelligence) đang nóng lên với việc OpenAI tái khởi động chương trình robot của mình, một thách thức mới đã nảy sinh: sự thiếu hụt dữ liệu huấn luyện có độ trung thực cao. Trong khi các Mô hình Ngôn ngữ Lớn (LLM) phát triển mạnh mẽ nhờ kho dữ liệu khổng lồ trên internet công cộng, thì lĩnh vực robotics lại đòi hỏi dữ liệu tương tác vật lý chính xác mà các bộ dữ liệu hiện tại đơn giản là không thể cung cấp.

Khoảng cách dữ liệu: Tại sao LLM sẽ không giải quyết được bài toán Robotics

Rào cản chính trong việc phát triển các robot có năng lực không chỉ nằm ở năng lực tính toán hay kiến trúc mô hình; mà là sự thiếu vắng một "hào ngăn dữ liệu" (data moat) tương đương với lượng văn bản được sử dụng cho các mô hình GPT. Các phương án thay thế hiện nay, chẳng hạn như video YouTube hoặc các thước phim độ phân giải thấp được thu thập bởi những người làm việc tự do (gig workers), rất khó để dung hòa với thực tế vật lý phức tạp của chuyển động robot. Vấn đề "con gà và quả trứng" này—cần dữ liệu để huấn luyện mô hình, nhưng lại cần mô hình để thu thập dữ liệu hiệu quả—đã trở thành nút thắt chính của ngành công nghiệp này.

XDOF, một startup vừa bước ra khỏi giai đoạn ẩn danh (stealth mode), đang định vị mình là lớp hạ tầng để giải quyết vấn đề này. Sau khi huy động được 70 triệu USD từ các tên tuổi lớn bao gồm Thrive Capital, Spark Capital, a16z, Lux và WndrCo, công ty đang xây dựng các đường ống (pipelines), công cụ thu thập và hệ thống chú thích mà các phòng thí nghiệm AI tiên phong đang phải chật vật tự xây dựng nội bộ.

Xây dựng Bộ dữ liệu ABC và Kim tự tháp Dữ liệu

Để thúc đẩy hệ sinh thái, XDOF đang hợp tác với phòng nghiên cứu AI của UC Berkeley để phát hành "ABC", một bộ sưu tập khổng lồ gồm dữ liệu huấn luyện robot chất lượng cao. Bộ dữ liệu này bao gồm:

Sử dụng dữ liệu này, các đội ngũ đã huấn luyện thành công robot thực hiện các tác vụ chi tiết như gấp áo thun, làm phẳng hộp và thực hiện các thao tác tinh vi như đặt AirPods vào hộp đựng.

Chiến lược của XDOF tuân theo mô hình "kim tự tháp dữ liệu" ba tầng để đảm bảo việc học tập toàn diện. Tầng giá trị nhất bao gồm dữ liệu điều khiển từ xa (teleoperation) được thu thập trực tiếp trên robot mục tiêu. Tiếp theo là dữ liệu chung được thu thập thông qua các thiết bị như GELLO (một hệ thống điều khiển từ xa chi phí thấp được phát triển bởi các đồng sáng lập XDOF là Philippe Wu và Fred Shentu). Tầng cuối cùng bao gồm dữ liệu "tự thân" (egocentric), nơi con người thực hiện các tác vụ hàng ngày trong khi đeo các cảm biến độc quyền của XDOF để ghi lại chuyển động vật lý từ góc nhìn thứ nhất.

Vượt xa quy mô của các phòng thí nghiệm tiên phong

Một câu hỏi then chốt đối với các nhà đầu tư là tại sao các phòng thí nghiệm AI lớn không tự mình xây dựng các nhà máy dữ liệu này. Theo CEO Philippe Wu, sự phức tạp trong vận hành là cực kỳ lớn. Việc vận hành một hoạt động thu thập dữ liệu đòi hỏi hàng trăm nghìn foot vuông diện tích kho bãi, hàng trăm robot đã được hiệu chuẩn và một lực lượng lao động khổng lồ gồm các nhân viên điều khiển từ xa đã qua đào tạo.

Bằng cách chuyên môn hóa vào công việc "không mấy hào nhoáng" này—bao gồm làm sạch dữ liệu và hiệu chuẩn đặc thù cho phần cứng—XDOF cho phép các phòng thí nghiệm AI tập trung vào kiến trúc mô hình, trong khi XDOF quản lý gánh nặng hậu cần khổng lồ của việc sản xuất dữ liệu vật lý. Tên của công ty, một cách chơi chữ từ "degrees of freedom" (bậc tự do), phản ánh mục tiêu cung cấp dữ liệu cho bất kỳ độ phức tạp chuyển động nào, từ 7 bậc tự do của cánh tay người cho đến 30 bậc tự do của một robot hình người.

Những điểm chính cần lưu ý