XDOF з'являється, щоб вирішити критичну проблему вузького місця в даних для Physical AI
Оскільки гонка за фізичним інтелектом загострюється з перезапуском робототехнічної програми OpenAI, виникла нова проблема: брак високоточних даних для навчання. У той час як великі мовні моделі (LLM) процвітали завдяки величезним обсягам публічного інтернету, робототехніка потребує точних даних про фізичну взаємодію, які сучасні набори даних просто не можуть забезпечити.
Дефіцит даних: чому LLM не вирішать проблеми робототехніки
Головною перешкодою у розробці здібних роботів є не лише обчислювальні потужності чи архітектура моделей; це відсутність «даних як захисного рову» (data moat), порівнянних із текстами, що використовуються для моделей GPT. Сучасні альтернативи, такі як відео з YouTube або відеоматеріали низької якості, зібрані гіг-працівниками, важко узгодити зі складними фізичними реаліями рухів роботів. Ця проблема «курки та яйця» — потреба в даних для навчання моделей при необхідності мати моделі для ефективного збору даних — стала основним вузьким місцем для галузі.
XDOF, стартап, що виходить із режиму прихованої розробки (stealth mode), позиціонує себе як інфраструктурний рівень для вирішення цієї проблеми. Залучивши 70 мільйонів доларів від таких важковаговиків, як Thrive Capital, Spark Capital, a16z, Lux та WndrCo, компанія створює конвеєри даних, інструменти збору та системи анотації, які передові лабораторії ШІ намагаються розробляти самостійно.
Створення набору даних ABC та піраміди даних
Щоб дати поштовх екосистемі, XDOF співпрацює з лабораторією досліджень ШІ Університету Каліфорнії в Берклі (UC Berkeley) для випуску «ABC» — величезної колекції високоякісних даних для навчання роботів. Цей набір даних включає:
- 130 000 траєкторій даних маніпуляцій робота.
- 300 годин симуляційних даних.
- 100 годин оцінок.
Використовуючи ці дані, команди вже успішно навчили роботів виконувати такі деталізовані завдання, як складання футболок, розгладжування коробок та виконання делікатних операцій, наприклад, поміщення AirPods у футляри.
Стратегія XDOF базується на трирівневій «піраміді даних» для забезпечення комплексного навчання. Найцінніший рівень включає дані телеопераційного керування, зібрані безпосередньо на цільовому роботі. За ним ідуть загальні дані, зібрані за допомогою таких пристроїв, як GELLO (бюджетна система телеопераційного керування, розроблена співзасновниками XDOF Philippe Wu та Fred Shentu). Останній рівень включає «егоцентричні» дані, коли люди виконують повсякденні завдання, використовуючи фірмові сенсори XDOF для захоплення фізичних рухів від першої особи.
Перевершуючи масштаби передових лабораторій
Критичне питання для інвесторів полягає в тому, чому провідні ШІ-лабораторії не будують такі фабрики даних самостійно. За словами генерального директора Філіппа Ву, операційна складність є величезною. Ведення операцій зі збору даних потребує сотень тисяч квадратних футів складських площ, сотень каліброваних роботів і величезного штату навчених операторів дистанційного керування.
Спеціалізуючись на цій «непрезентабельній» роботі — включаючи очищення даних та калібрування під конкретне обладнання — XDOF дозволяє ШІ-лабораторіям зосередитися на архітектурі моделей, тоді як XDOF бере на себе величезний логістичний тягар фізичного виробництва даних. Назва компанії, що є грою слів із терміном «ступені свободи» (degrees of freedom), відображає її мету — надавати дані для будь-якої довільної складності руху: від семи ступенів свободи людської руки до 30 ступенів у гуманоїда.
Основні висновки
- Інфраструктура замість моделей: XDOF усуває «вузьке місце» фізичного ШІ, надаючи спеціалізовані конвеєри даних та інструменти анотації, яких бракує лабораторіям, орієнтованим на LLM.
- Високоточні набори даних: Випуск ABC dataset забезпечує галузь безпрецедентним масштабом, що включає 130 000 траєкторій маніпуляцій.
- Операційний аутсорсинг: XDOF дозволяє передовим лабораторіям уникнути величезних капітальних і логістичних витрат, пов'язаних із керуванням великомасштабними фізичними складами даних та парками обладнання для дистанційного керування.