XDOF xuất hiện nhằm giải quyết nút thắt dữ liệu quan trọng trong Physical AI
Khi cuộc đua giành lợi thế về trí tuệ vật lý (physical intelligence) đang nóng lên với việc OpenAI tái khởi động chương trình robot của mình, một thách thức mới đã nảy sinh: sự thiếu hụt dữ liệu huấn luyện có độ trung thực cao. Trong khi các Mô hình Ngôn ngữ Lớn (LLM) phát triển mạnh mẽ nhờ kho dữ liệu khổng lồ trên internet công cộng, thì lĩnh vực robotics lại đòi hỏi dữ liệu tương tác vật lý chính xác mà các bộ dữ liệu hiện tại đơn giản là không thể cung cấp.
Khoảng cách dữ liệu: Tại sao LLM sẽ không giải quyết được bài toán Robotics
Rào cản chính trong việc phát triển các robot có năng lực không chỉ nằm ở năng lực tính toán hay kiến trúc mô hình; mà là sự thiếu vắng một "hào ngăn dữ liệu" (data moat) tương đương với lượng văn bản được sử dụng cho các mô hình GPT. Các phương án thay thế hiện nay, chẳng hạn như video YouTube hoặc các thước phim độ phân giải thấp được thu thập bởi những người làm việc tự do (gig workers), rất khó để dung hòa với thực tế vật lý phức tạp của chuyển động robot. Vấn đề "con gà và quả trứng" này—cần dữ liệu để huấn luyện mô hình, nhưng lại cần mô hình để thu thập dữ liệu hiệu quả—đã trở thành nút thắt chính của ngành công nghiệp này.
XDOF, một startup vừa bước ra khỏi giai đoạn ẩn danh (stealth mode), đang định vị mình là lớp hạ tầng để giải quyết vấn đề này. Sau khi huy động được 70 triệu USD từ các tên tuổi lớn bao gồm Thrive Capital, Spark Capital, a16z, Lux và WndrCo, công ty đang xây dựng các đường ống (pipelines), công cụ thu thập và hệ thống chú thích mà các phòng thí nghiệm AI tiên phong đang phải chật vật tự xây dựng nội bộ.
Xây dựng Bộ dữ liệu ABC và Kim tự tháp Dữ liệu
Để thúc đẩy hệ sinh thái, XDOF đang hợp tác với phòng nghiên cứu AI của UC Berkeley để phát hành "ABC", một bộ sưu tập khổng lồ gồm dữ liệu huấn luyện robot chất lượng cao. Bộ dữ liệu này bao gồm:
- 130.000 quỹ đạo dữ liệu thao tác của robot.
- 300 giờ dữ liệu mô phỏng.
- 100 giờ đánh giá.
Sử dụng dữ liệu này, các đội ngũ đã huấn luyện thành công robot thực hiện các tác vụ chi tiết như gấp áo thun, làm phẳng hộp và thực hiện các thao tác tinh vi như đặt AirPods vào hộp đựng.
Chiến lược của XDOF tuân theo mô hình "kim tự tháp dữ liệu" ba tầng để đảm bảo việc học tập toàn diện. Tầng giá trị nhất bao gồm dữ liệu điều khiển từ xa (teleoperation) được thu thập trực tiếp trên robot mục tiêu. Tiếp theo là dữ liệu chung được thu thập thông qua các thiết bị như GELLO (một hệ thống điều khiển từ xa chi phí thấp được phát triển bởi các đồng sáng lập XDOF là Philippe Wu và Fred Shentu). Tầng cuối cùng bao gồm dữ liệu "tự thân" (egocentric), nơi con người thực hiện các tác vụ hàng ngày trong khi đeo các cảm biến độc quyền của XDOF để ghi lại chuyển động vật lý từ góc nhìn thứ nhất.
Vượt xa quy mô của các phòng thí nghiệm tiên phong
Một câu hỏi then chốt đối với các nhà đầu tư là tại sao các phòng thí nghiệm AI lớn không tự mình xây dựng các nhà máy dữ liệu này. Theo CEO Philippe Wu, sự phức tạp trong vận hành là cực kỳ lớn. Việc vận hành một hoạt động thu thập dữ liệu đòi hỏi hàng trăm nghìn foot vuông diện tích kho bãi, hàng trăm robot đã được hiệu chuẩn và một lực lượng lao động khổng lồ gồm các nhân viên điều khiển từ xa đã qua đào tạo.
Bằng cách chuyên môn hóa vào công việc "không mấy hào nhoáng" này—bao gồm làm sạch dữ liệu và hiệu chuẩn đặc thù cho phần cứng—XDOF cho phép các phòng thí nghiệm AI tập trung vào kiến trúc mô hình, trong khi XDOF quản lý gánh nặng hậu cần khổng lồ của việc sản xuất dữ liệu vật lý. Tên của công ty, một cách chơi chữ từ "degrees of freedom" (bậc tự do), phản ánh mục tiêu cung cấp dữ liệu cho bất kỳ độ phức tạp chuyển động nào, từ 7 bậc tự do của cánh tay người cho đến 30 bậc tự do của một robot hình người.
Những điểm chính cần lưu ý
- Hạ tầng quan trọng hơn Mô hình: XDOF đang giải quyết nút thắt cổ chai của "AI vật lý" bằng cách cung cấp các đường ống dữ liệu chuyên dụng và các công cụ gán nhãn mà các phòng thí nghiệm tập trung vào LLM đang thiếu.
- Bộ dữ liệu độ trung thực cao: Việc phát hành bộ dữ liệu ABC cung cấp cho ngành công nghiệp một quy mô chưa từng có, với 130.000 quỹ đạo thao tác.
- Thuê ngoài vận hành: XDOF cho phép các phòng thí nghiệm tiên phong bỏ qua các yêu cầu khổng lồ về vốn và hậu cần trong việc quản lý các kho dữ liệu vật lý quy mô lớn và đội ngũ điều khiển từ xa.