AI Modelleri Yeni MirrorCode Benchmark'ta 19 Gün Boyunca Durmaksızın Çalıştı
Otonom yazılım mühendisliği dünyası, basit kod parçacıklarından devasa, çok günlük programlama maratonlarına doğru evriliyor. Epoch AI ve METR tarafından geliştirilen MirrorCode adlı yeni bir benchmark, AI modellerinin artık daha önce haftalarca insan emeği gerektiren karmaşık yeniden uygulama (reimplementation) görevlerinin üstesinden gelebildiğini ortaya koyuyor.
MirrorCode ile AI'yı Zorlamak
MirrorCode, çıkarım (inference) maliyetlerini görev başına yalnızca 1 ila 10 dolar ile sınırlayan geleneksel yazılım mühendisliği benchmark'larından önemli bir kopuşu temsil ediyor. Bunun yerine bu benchmark, AI modellerinin Unix araçlarından kriptografiye, biyoinformatikten veri serileştirmeye kadar uzanan tam ve karmaşık programları, orijinal kaynak koda erişimleri olmadan sıfırdan yeniden uygulamalarını gerektiriyor. Gerçek işlevsel eşdeğerliği sağlamak için, AI tarafından üretilen her çözüm, modelin geliştirme aşamasında asla görmediği gizli uçtan uca (end-to-end) testlerden geçmek zorunda.
Bu görevlerin ölçeği eşi benzeri görülmemiş düzeyde. Benchmark'taki belirli bir görev, bir AI modelinin herhangi bir insan müdahalesi olmadan 19 gün boyunca kesintisiz çalışmasını gerektirdi ve bu da tek bir çalıştırma için 2.600 dolarlık bir çıkarım maliyetine yol açtı.
Yarışın Lideri Claude Opus 4.7
Benchmark sonuçları, mevcut öncü (frontier) modeller arasında net bir hiyerarşiyi gözler önüne seriyor. Claude Opus 4.7, yüzde 56'lık çözüm oranıyla lider olarak öne çıkarken; yüzde 44 ile GPT-5.5'i ve yüzde 32 ile Gemini 3.1 Pro Preview'ı geride bıraktı.
Öne çıkan bir başarı, biyoinformatik araç kiti gotree ile elde edildi. Yaklaşık 16.000 satır Go kodundan oluşan bu program, 40'tan fazla farklı komuta sahip. Bir insan mühendisin böyle bir görevi tamamlaması tipik olarak 2 ila 17 hafta sürerken, Claude Opus 4.7 bunu sadece 14 saatte ve 251 dolarlık bir maliyetle başarıyla yeniden uyguladı. Modellerin yüzde 100 kusursuz bir yeniden uygulama gerçekleştiremediği durumlarda bile, işlevsel testlerin yüzde 90'ından fazlasını şaşırtıcı bir şekilde geçiyorlar.
Karmaşıklık Boşluğu ve Ezberleme Riskleri
Bu sıçramalara rağmen, MirrorCode sonuçları belirgin bir "karmaşıklık tavanı" olduğunu gösteriyor. Test edilen tüm modeller uuid veya parseqsv gibi küçük programları güvenilir bir şekilde işleyebilse de, şu anda hiçbir model "büyük" kategorisindeki görevleri tam olarak çözme yeteneğine sahip değil. AI kodlama dünyasının sınırları, en devasa ve birbirine bağlı yazılım mimarileriyle karşılaştığında hala zorlanıyor.
Epoch AI ayrıca LLM değerlendirmelerindeki kritik bir endişeye de değindi: veri kirliliği (data contamination). Benchmark açık kaynaklı programlar kullandığı için, modellerin eğitim aşamalarında orijinal kodu zaten ezberlemiş olma riski bulunuyor. İlk bulgular performansın sadece ezberlemeye dayalı olmadığını gösterse de araştırmacılar, mevcut çözüm oranlarına olan katkısını tamamen göz ardı edemeyeceklerini kabul ediyorlar.
Bu Durum AI Endüstrisi İçin Neden Önemli?
MirrorCode, "Copilot olarak AI"dan "Otonom Ajan olarak AI"ya geçişin sinyalini veriyor. Modellerin 19 günlük süreler boyunca muhakeme yeteneğini sürdürebildiğini ve binlerce satır kodu işleyebildiğini kanıtlayarak endüstri, tüm yazılım yaşam döngülerini yönetebilecek ajanlara bir adım daha yaklaşıyor. Çıkarım maliyetleri dalgalanırken —GPT-5.5 selefinden üç kat daha maliyetliyken, Claude Opus 4.7 üç kat daha verimli hale gelmişken— otonom mühendisliğin ekonomik uygulanabilirliği bir sonraki büyük sınır olacak.
Temel Çıkarımlar
- Yeni Muhakeme Ölçeği: MirrorCode, tek bir görevin 2.600 dolara kadar maliyetlendiği ve 19 gün sürdüğü devasa çıkarım bütçelerine izin vererek AI sınırlarını zorluyor.
- Performansta Lider Claude: Claude Opus 4.7, yüzde 56'lık çözüm oranıyla şu anda benchmark lideri konumunda ve büyük ölçekli Go kod tabanlarını yeniden uygulama konusunda üst düzey yetenekler sergiliyor.
- Karmaşıklık Engelleri Devam Ediyor: Küçük ölçekli görevler güvenilir bir şekilde çözülse de, mevcut hiçbir model henüz en karmaşık, büyük ölçekli programlama görevlerinin üstesinden tam olarak gelemiyor.
