XDOF решает проблему критического дефицита данных в области Physical AI

По мере того как гонка за физическим интеллектом обостряется (OpenAI перезапускает свою робототехническую программу), возникает новая проблема: нехватка высокоточных обучающих данных. В то время как большие языковые модели (LLM) процветали благодаря огромным массивам данных из открытого интернета, робототехнике требуются точные данные о физическом взаимодействии, которые современные наборы данных просто не могут предоставить.

Дефицит данных: почему LLM не решат проблемы робототехники

Основным препятствием на пути создания способных роботов являются не только вычислительные мощности или архитектура моделей, но и отсутствие «защитного рва» из данных, сопоставимого с текстовыми массивами, использованными для моделей GPT. Существующие альтернативы, такие как видео с YouTube или низкокачественные записи, сделанные гиг-работниками, трудно сопоставить со сложными физическими реалиями движения роботов. Эта проблема «курицы и яйца» — когда для обучения моделей нужны данные, но для эффективного сбора данных нужны модели — стала основным узким местом для всей отрасли.

XDOF, стартап, выходящий из режима «стелс», позиционирует себя как инфраструктурный уровень для решения этой проблемы. Привлечив 70 миллионов долларов от таких гигантов, как Thrive Capital, Spark Capital, a16z, Lux и WndrCo, компания создает конвейеры данных, инструменты сбора и системы аннотации, которые передовые лаборатории ИИ пытаются разработать самостоятельно.

Создание набора данных ABC и «пирамиды данных»

Чтобы дать импульс развитию экосистемы, XDOF в партнерстве с лабораторией исследований ИИ Калифорнийского университета в Беркли (UC Berkeley) выпускает «ABC» — массивную коллекцию высококачественных данных для обучения роботов. Этот набор данных включает:

Используя эти данные, команды уже успешно обучили роботов выполнению таких детализированных задач, как складывание футболок, разглаживание коробок и выполнение деликатных операций, например, помещение AirPods в их кейсы.

Стратегия XDOF опирается на трехъярусную «пирамиду данных» для обеспечения всестороннего обучения. Самый ценный уровень включает данные телеуправления, собранные непосредственно на целевом роботе. За ним следуют общие данные, полученные с помощью таких устройств, как GELLO (недорогая система телеуправления, разработанная соучредителями XDOF Филиппом Ву и Фредом Шенту). Последний уровень включает «эгоцентрические» данные, когда люди выполняют повседневные задачи, используя собственные датчики XDOF для фиксации физических движений от первого лица.

Масштабирование сверх возможностей передовых лабораторий

Критический вопрос для инвесторов заключается в том, почему крупнейшие ИИ-лаборатории не строят такие фабрики данных самостоятельно. По словам генерального директора Филиппа Ву, операционная сложность этого процесса колоссальна. Организация сбора данных требует сотни тысяч квадратных футов складских помещений, сотни откалиброванных роботов и огромный штат обученных операторов телеуправления.

Специализируясь на этой «непрестижной» работе — включая очистку данных и калибровку под конкретное оборудование — XDOF позволяет ИИ-лабораториям сосредоточиться на архитектуре моделей, в то время как XDOF берет на себя огромную логистическую нагрузку по производству физических данных. Название компании, обыгрывающее понятие «степени свободы», отражает её цель: предоставлять данные для любого произвольного уровня сложности движений — от семи степеней свободы человеческой руки до 30 степеней свободы гуманоидного робота.

Основные выводы