Nvidia-Forscher ermöglichen Robotern das Selbsttraining mittels KI-Coding-Agenten
Das Problem der manuellen Datenerfassung und der ständigen menschlichen Intervention in der Robotik wird endlich angegangen. Durch den Einsatz von KI-Coding-Agenten haben Forscher ein System entwickelt, bei dem Roboter autonom ihren eigenen Trainingscode schreiben und ihre Geschicklichkeit in realen Umgebungen verfeinern können.
Den manuellen Engpass mit ENPIRE überwinden
Traditionell erfordert das Beibringen komplexer Aufgaben wie dem geschickten Greifen (dexterous grasping) an einen Roboter, dass menschliche Ingenieure Szenen zurücksetzen, Datensätze sammeln und Algorithmen manuell anpassen. Dieser arbeitsintensive Prozess stellt einen massiven Reibungspunkt bei der Skalierung robotischer Intelligenz dar. Um dies zu lösen, haben Forscher von Nvidia, der Carnegie Mellon University und der UC Berkeley ENPIRE vorgestellt – ein Framework, das den Trainingsprozess in eine selbsterhaltende Feedbackschleife verwandelt.
Anstatt auf menschliche Anweisungen zu warten, nutzt das ENPIRE-System KI-Coding-Agenten, um den gesamten Lebenszyklus zu verwalten: das Zurücksetzen des Arbeitsbereichs, das Ausführen einer Bewegungsstrategie, die Bewertung des Ergebnisses und die sofortige Iteration am Code zur Leistungssteigerung. Dies verschiebt die Robotik von „Human-in-the-Loop“ zu „Agent-in-the-Loop“.
Wie autonome Coding-Agenten die Geschicklichkeit vorantreiben
Das ENPIRE-Framework arbeitet in zwei unterschiedlichen Phasen. In der ersten Phase richtet der Agent unter minimaler menschlicher Anleitung einen Arbeitsbereich ein – oft reichen dazu nur wenige Minuten Videomaterial, das erfolgreiche und gescheiterte Versuche zeigt. Entscheidend ist, dass der Agent seine eigenen Belohnungsfunktionen (reward functions) schreibt. Beispielsweise entwickelte der Agent bei Aufgaben zum Einsetzen von Stiften (pin insertion) eine benutzerdefinierte Prüfung, die visuelle Ausrichtung, Greiferhöhe und geschätzte Kraft kombiniert, um den Erfolg zu bestimmen.
In der zweiten Phase agieren die Agenten mit völliger Autonomie. Sie lesen Forschungsarbeiten, formulieren Hypothesen und bearbeiten den Trainingscode direkt. Sie können zwischen Methoden wie Behavior Cloning (Nachahmung menschlicher Bewegungen) oder Reinforcement Learning (Versuch und Irrtum) wählen, je nachdem, welcher Ansatz bessere Signale in der realen Welt liefert. Während der Tests verwendeten die Forscher Hochleistungsmodelle wie Codex (mit GPT-5.5), Claude Code (mit Opus 4.7) und Kimi Code (mit Kimi K2.6), wobei Codex als leistungsstärkstes Modell hervorging.
Skalierung über eine Git-fähige Roboterflotte
Einer der innovativsten Aspekte dieser Forschung ist die Koordination einer Flotte von acht dual-arm YAM-Robotestationen. Anstatt isoliert zu arbeiten, agieren diese Stationen als verteiltes Forschungsteam. Sie teilen ihre Erkenntnisse, erfolgreiche „Rezepte“ und gescheiterte Hypothesen mithilfe von Git, dem Standard-Versionsverwaltungstool in der Softwareentwicklung.
Dieser flottenbasierte Ansatz führt zu massiven zeitlichen Gewinnen:
- Push-T-Test: Die Skalierung von einem auf acht Agenten reduzierte die Abschlusszeit von fünf Stunden auf nur zwei.
- Pin-Insertion: Die Zeit für den Abschluss der Aufgabe sank von über 90 Minuten auf etwa 40 Minuten.
- Erfolgsraten: Die Flotte erreichte bis zu 99 % Erfolg bei anspruchsvollen Aufgaben, einschließlich dem Sortieren von Pins und dem Schneiden von Kabelbindern.
Die Realitätslücke: Simulation vs. Hardware
Trotz dieser Durchbrüche hebt die Forschung die „Sim-to-Real“-Lücke hervor. Während alle drei getesteten Agenten den Push-T-Test in der Simulation lösten, scheiterten zwei von drei beim Übergang auf physische Hardware aufgrund unvorhersehbarer Variablen wie Reibung und Roboterdynamik. ENPIRE zeigte jedoch in der RoboCasa-Simulation eine überlegene Leistung im Vergleich zu etablierten Modellen wie GR00T.
Da sich die Industrie in Richtung Allzweck-Robotik bewegt, wird die Fähigkeit von Maschinen, sich durch Code selbst zu erforschen („self-research“), der Schlüssel sein, um über eng gefasste, vorprogrammierte Bewegungen hinaus zu echter, anpassungsfähiger Intelligenz zu gelangen.
Wichtigste Erkenntnisse
- Autonome Iteration: ENPIRE ermöglicht es Robotern, ihre eigenen Belohnungsfunktionen und Trainingscodes zu schreiben, was den Bedarf für menschliche Ingenieure, Szenen zurückzusetzen oder Algorithmen anzupassen, erheblich reduziert.
- Kollaboratives Lernen: Durch die Nutzung von Git zum Datenaustausch kann eine Flotte von acht Robotern kollektiv von den Erfolgen und Fehlern der anderen lernen, was den Zeitplan des Trainings drastisch beschleunigt.
- Komplexität der realen Welt: Während das System bei spezifischen Aufgaben bis zu 99 % Erfolg erreicht, bleibt die unvorhersehbare Natur physischer Umgebungen im Vergleich zum simulierten Training eine erhebliche Herausforderung.