Nvidia Araştırmacıları, Robotların Yapay Zeka Kodlama Ajanlarını Kullanarak Kendi Kendine Eğitmesini Sağlıyor
Robotikte manuel veri toplama ve sürekli insan müdahalesi darboğazı nihayet çözülüyor. Araştırmacılar, yapay zeka kodlama ajanlarından yararlanarak, robotların kendi eğitim kodlarını otonom olarak yazabildiği ve gerçek dünya ortamlarında el becerilerini geliştirebildiği bir sistem geliştirdiler.
ENPIRE ile Manuel Darboğazı Aşmak
Geleneksel olarak, bir robota becerikli kavrama gibi karmaşık görevleri öğretmek; insan mühendislerin sahneleri sıfırlamasını, veri setlerini toplamasını ve algoritmaları manuel olarak ayarlamasını gerektirir. Bu emek yoğun süreç, robotik zekanın ölçeklendirilmesinde büyük bir sürtünme noktası oluşturur. Bunu çözmek için Nvidia, Carnegie Mellon Üniversitesi ve UC Berkeley'den araştırmacılar, eğitim sürecini kendi kendini besleyen bir geri bildirim döngüsüne dönüştüren bir çerçeve olan ENPIRE'ı tanıttılar.
ENPIRE sistemi, insan talimatlarını beklemek yerine tüm yaşam döngüsünü yönetmek için yapay zeka kodlama ajanlarını kullanır: çalışma alanını sıfırlamak, bir hareket stratejisi yürütmek, sonucu değerlendirmek ve performansı artırmak için kod üzerinde anında yinelemeler yapmak. Bu, robotik teknolojisini "döngüdeki insan" (human-in-the-loop) modelinden "döngüdeki ajan" (agent-in-the-loop) modeline taşıyor.
Otonom Kodlama Ajanları El Becerisini Nasıl Artırıyor
ENPIRE çerçevesi iki farklı aşamada çalışır. İlk aşamada ajan, genellikle başarılı ve başarısız denemeleri gösteren sadece birkaç dakikalık bir video gibi minimum insan rehberliği kullanarak bir çalışma alanı oluşturur. En önemlisi, ajan kendi ödül fonksiyonlarını yazar. Örneğin, pim yerleştirme görevleri sırasında ajan; başarının belirlenmesi için görsel hizalama, tutucu yüksekliği ve tahmini kuvveti birleştiren özel bir kontrol mekanizması geliştirdi.
İkinci aşamada ajanlar tam otonomi ile çalışır. Araştırma makalelerini okurlar, hipotezler kurarlar ve eğitim kodunu doğrudan düzenlerler. Hangi yaklaşımın gerçek dünyada daha iyi sinyaller verdiğine bağlı olarak, davranış kopyalama (behavior cloning - insan hareketini taklit etme) veya pekiştirmeli öğrenme (reinforcement learning - deneme yanılma) gibi yöntemler arasında seçim yapabilirler. Testler sırasında araştırmacılar; Codex (GPT-5.5 ile), Claude Code (Opus 4.7 ile) ve Kimi Code (Kimi K2.6 ile) dahil olmak üzere yüksek performanslı modellerden yararlandılar ve Codex en iyi performans gösteren model olarak öne çıktı.
Git Destekli Bir Robot Filosu Aracılığıyla Ölçeklendirme
Bu araştırmanın en yenilikçi yönlerinden biri, sekiz adet çift kollu YAM robot istasyonundan oluşan bir filonun koordinasyonudur. Bu istasyonlar, izole bir şekilde çalışmak yerine, dağıtık bir araştırma ekibi gibi hareket ederler. Bulgularını, başarılı "reçetelerini" ve başarısız hipotezlerini, yazılım mühendisliğinde kullanılan standart versiyon kontrol aracı olan Git'i kullanarak paylaşırlar.
Bu filo tabanlı yaklaşım, muazzam zaman kazançları sağlar:
- Push-T Testi: Ajan sayısının birden sekize çıkarılması, tamamlanma süresini beş saatten sadece iki saate düşürdü.
- Pin Yerleştirme: Görev tamamlama süresi 90 dakikanın üzerinden yaklaşık 40 dakikaya düştü.
- Başarı Oranları: Filo, pinleri ayıklama ve kablo bağlarını kesme gibi zorlu görevlerde %99'a varan başarı elde etti.
Gerçeklik Boşluğu: Simülasyon ve Donanım
Bu atılımlara rağmen araştırma, "sim-to-real" boşluğuna dikkat çekiyor. Test edilen üç ajanın tamamı Push-T testini simülasyonda çözerken, üçünden ikisi sürtünme ve robot dinamikleri gibi öngörülemeyen değişkenler nedeniyle fiziksel donanıma geçildiğinde başarısız oldu. Bununla birlikte ENPIRE, RoboCasa simülasyonunda GR00T gibi yerleşik modellere kıyasla üstün bir performans sergiledi.
Endüstri genel amaçlı robotiğe doğru ilerledikçe, makinelerin kod aracılığıyla "kendi kendine araştırma" yapabilme yeteneği, dar kapsamlı, önceden programlanmış hareketlerin ötesine geçip gerçek ve uyarlanabilir bir zekaya ulaşmanın anahtarı olacaktır.
Temel Çıkarımlar
- Otonom Yineleme: ENPIRE, robotların kendi ödül fonksiyonlarını ve eğitim kodlarını yazmalarına olanak tanıyarak, insan mühendislerin sahneleri sıfırlama veya algoritmaları ince ayar yapma ihtiyacını önemli ölçüde azaltır.
- İş Birliğine Dayalı Öğrenme: Verileri paylaşmak için Git kullanarak, sekiz robotluk bir filo birbirlerinin başarılarından ve başarısızlıklarından kolektif olarak öğrenebilir ve bu da eğitim takvimini büyük ölçüde hızlandırır.
- Gerçek Dünya Karmaşıklığı: Sistem belirli görevlerde %99'a varan başarı elde etse de, fiziksel ortamların öngörülemeyen doğası, simüle edilmiş eğitime kıyasla önemli bir zorluk olmaya devam etmektedir.