Nvidia-Forscher ermöglichen Robotern das Selbsttraining mittels KI-Coding-Agenten

Das Problem der manuellen Datenerfassung und der ständigen menschlichen Intervention in der Robotik wird endlich angegangen. Durch den Einsatz von KI-Coding-Agenten haben Forscher ein System entwickelt, bei dem Roboter autonom ihren eigenen Trainingscode schreiben und ihre Geschicklichkeit in realen Umgebungen verfeinern können.

Den manuellen Engpass mit ENPIRE überwinden

Traditionell erfordert das Beibringen komplexer Aufgaben wie dem geschickten Greifen (dexterous grasping) an einen Roboter, dass menschliche Ingenieure Szenen zurücksetzen, Datensätze sammeln und Algorithmen manuell anpassen. Dieser arbeitsintensive Prozess stellt einen massiven Reibungspunkt bei der Skalierung robotischer Intelligenz dar. Um dies zu lösen, haben Forscher von Nvidia, der Carnegie Mellon University und der UC Berkeley ENPIRE vorgestellt – ein Framework, das den Trainingsprozess in eine selbsterhaltende Feedbackschleife verwandelt.

Anstatt auf menschliche Anweisungen zu warten, nutzt das ENPIRE-System KI-Coding-Agenten, um den gesamten Lebenszyklus zu verwalten: das Zurücksetzen des Arbeitsbereichs, das Ausführen einer Bewegungsstrategie, die Bewertung des Ergebnisses und die sofortige Iteration am Code zur Leistungssteigerung. Dies verschiebt die Robotik von „Human-in-the-Loop“ zu „Agent-in-the-Loop“.

Wie autonome Coding-Agenten die Geschicklichkeit vorantreiben

Das ENPIRE-Framework arbeitet in zwei unterschiedlichen Phasen. In der ersten Phase richtet der Agent unter minimaler menschlicher Anleitung einen Arbeitsbereich ein – oft reichen dazu nur wenige Minuten Videomaterial, das erfolgreiche und gescheiterte Versuche zeigt. Entscheidend ist, dass der Agent seine eigenen Belohnungsfunktionen (reward functions) schreibt. Beispielsweise entwickelte der Agent bei Aufgaben zum Einsetzen von Stiften (pin insertion) eine benutzerdefinierte Prüfung, die visuelle Ausrichtung, Greiferhöhe und geschätzte Kraft kombiniert, um den Erfolg zu bestimmen.

In der zweiten Phase agieren die Agenten mit völliger Autonomie. Sie lesen Forschungsarbeiten, formulieren Hypothesen und bearbeiten den Trainingscode direkt. Sie können zwischen Methoden wie Behavior Cloning (Nachahmung menschlicher Bewegungen) oder Reinforcement Learning (Versuch und Irrtum) wählen, je nachdem, welcher Ansatz bessere Signale in der realen Welt liefert. Während der Tests verwendeten die Forscher Hochleistungsmodelle wie Codex (mit GPT-5.5), Claude Code (mit Opus 4.7) und Kimi Code (mit Kimi K2.6), wobei Codex als leistungsstärkstes Modell hervorging.

Skalierung über eine Git-fähige Roboterflotte

Einer der innovativsten Aspekte dieser Forschung ist die Koordination einer Flotte von acht dual-arm YAM-Robotestationen. Anstatt isoliert zu arbeiten, agieren diese Stationen als verteiltes Forschungsteam. Sie teilen ihre Erkenntnisse, erfolgreiche „Rezepte“ und gescheiterte Hypothesen mithilfe von Git, dem Standard-Versionsverwaltungstool in der Softwareentwicklung.

Dieser flottenbasierte Ansatz führt zu massiven zeitlichen Gewinnen:

Die Realitätslücke: Simulation vs. Hardware

Trotz dieser Durchbrüche hebt die Forschung die „Sim-to-Real“-Lücke hervor. Während alle drei getesteten Agenten den Push-T-Test in der Simulation lösten, scheiterten zwei von drei beim Übergang auf physische Hardware aufgrund unvorhersehbarer Variablen wie Reibung und Roboterdynamik. ENPIRE zeigte jedoch in der RoboCasa-Simulation eine überlegene Leistung im Vergleich zu etablierten Modellen wie GR00T.

Da sich die Industrie in Richtung Allzweck-Robotik bewegt, wird die Fähigkeit von Maschinen, sich durch Code selbst zu erforschen („self-research“), der Schlüssel sein, um über eng gefasste, vorprogrammierte Bewegungen hinaus zu echter, anpassungsfähiger Intelligenz zu gelangen.

Wichtigste Erkenntnisse