Nvidia Araştırmacıları, Robotların Yapay Zeka Kodlama Ajanlarını Kullanarak Kendi Kendine Eğitmesini Sağlıyor

Robotikte manuel veri toplama ve sürekli insan müdahalesi darboğazı nihayet çözülüyor. Araştırmacılar, yapay zeka kodlama ajanlarından yararlanarak, robotların kendi eğitim kodlarını otonom olarak yazabildiği ve gerçek dünya ortamlarında el becerilerini geliştirebildiği bir sistem geliştirdiler.

ENPIRE ile Manuel Darboğazı Aşmak

Geleneksel olarak, bir robota becerikli kavrama gibi karmaşık görevleri öğretmek; insan mühendislerin sahneleri sıfırlamasını, veri setlerini toplamasını ve algoritmaları manuel olarak ayarlamasını gerektirir. Bu emek yoğun süreç, robotik zekanın ölçeklendirilmesinde büyük bir sürtünme noktası oluşturur. Bunu çözmek için Nvidia, Carnegie Mellon Üniversitesi ve UC Berkeley'den araştırmacılar, eğitim sürecini kendi kendini besleyen bir geri bildirim döngüsüne dönüştüren bir çerçeve olan ENPIRE'ı tanıttılar.

ENPIRE sistemi, insan talimatlarını beklemek yerine tüm yaşam döngüsünü yönetmek için yapay zeka kodlama ajanlarını kullanır: çalışma alanını sıfırlamak, bir hareket stratejisi yürütmek, sonucu değerlendirmek ve performansı artırmak için kod üzerinde anında yinelemeler yapmak. Bu, robotik teknolojisini "döngüdeki insan" (human-in-the-loop) modelinden "döngüdeki ajan" (agent-in-the-loop) modeline taşıyor.

Otonom Kodlama Ajanları El Becerisini Nasıl Artırıyor

ENPIRE çerçevesi iki farklı aşamada çalışır. İlk aşamada ajan, genellikle başarılı ve başarısız denemeleri gösteren sadece birkaç dakikalık bir video gibi minimum insan rehberliği kullanarak bir çalışma alanı oluşturur. En önemlisi, ajan kendi ödül fonksiyonlarını yazar. Örneğin, pim yerleştirme görevleri sırasında ajan; başarının belirlenmesi için görsel hizalama, tutucu yüksekliği ve tahmini kuvveti birleştiren özel bir kontrol mekanizması geliştirdi.

İkinci aşamada ajanlar tam otonomi ile çalışır. Araştırma makalelerini okurlar, hipotezler kurarlar ve eğitim kodunu doğrudan düzenlerler. Hangi yaklaşımın gerçek dünyada daha iyi sinyaller verdiğine bağlı olarak, davranış kopyalama (behavior cloning - insan hareketini taklit etme) veya pekiştirmeli öğrenme (reinforcement learning - deneme yanılma) gibi yöntemler arasında seçim yapabilirler. Testler sırasında araştırmacılar; Codex (GPT-5.5 ile), Claude Code (Opus 4.7 ile) ve Kimi Code (Kimi K2.6 ile) dahil olmak üzere yüksek performanslı modellerden yararlandılar ve Codex en iyi performans gösteren model olarak öne çıktı.

Git Destekli Bir Robot Filosu Aracılığıyla Ölçeklendirme

Bu araştırmanın en yenilikçi yönlerinden biri, sekiz adet çift kollu YAM robot istasyonundan oluşan bir filonun koordinasyonudur. Bu istasyonlar, izole bir şekilde çalışmak yerine, dağıtık bir araştırma ekibi gibi hareket ederler. Bulgularını, başarılı "reçetelerini" ve başarısız hipotezlerini, yazılım mühendisliğinde kullanılan standart versiyon kontrol aracı olan Git'i kullanarak paylaşırlar.

Bu filo tabanlı yaklaşım, muazzam zaman kazançları sağlar:

Gerçeklik Boşluğu: Simülasyon ve Donanım

Bu atılımlara rağmen araştırma, "sim-to-real" boşluğuna dikkat çekiyor. Test edilen üç ajanın tamamı Push-T testini simülasyonda çözerken, üçünden ikisi sürtünme ve robot dinamikleri gibi öngörülemeyen değişkenler nedeniyle fiziksel donanıma geçildiğinde başarısız oldu. Bununla birlikte ENPIRE, RoboCasa simülasyonunda GR00T gibi yerleşik modellere kıyasla üstün bir performans sergiledi.

Endüstri genel amaçlı robotiğe doğru ilerledikçe, makinelerin kod aracılığıyla "kendi kendine araştırma" yapabilme yeteneği, dar kapsamlı, önceden programlanmış hareketlerin ötesine geçip gerçek ve uyarlanabilir bir zekaya ulaşmanın anahtarı olacaktır.

Temel Çıkarımlar