مدل‌های هوش مصنوعی در بنچمارک جدید MirrorCode به مدت ۱۹ روز بدون وقفه اجرا شدند

چشم‌انداز مهندسی نرم‌افزار خودمختار از قطعه‌کدهای ساده به ماراتن‌های برنامه‌نویسی عظیم و چندروزه در حال تغییر است. بنچمارک جدیدی از Epoch AI و METR به نام MirrorCode نشان می‌دهد که مدل‌های هوش مصنوعی اکنون می‌توانند وظایف پیچیده بازپیاده‌سازی (reimplementation) را انجام دهند که پیش از این هفته‌ها کار انسانی می‌طلبید.

به چالش کشیدن هوش مصنوعی با MirrorCode

MirrorCode نشان‌دهنده تغییری بزرگ نسبت به بنچمارک‌های سنتی مهندسی نرم‌افزار است که معمولاً هزینه‌های استنتاج (inference) را به تنها ۱ تا ۱۰ دلار برای هر وظیفه محدود می‌کنند. در عوض، این بنچمارک از مدل‌های هوش مصنوعی می‌خواهد که برنامه‌های کامل و پیچیده را از ابتدا بازپیاده‌سازی کنند—از ابزارهای Unix و رمزنگاری گرفته تا بیوانفورماتیک و سریال‌سازی داده‌ها (data serialization)—بدون اینکه به کد منبع اصلی دسترسی داشته باشند. برای اطمینان از معادل بودن عملکردی واقعی، هر راهکار تولید شده توسط هوش مصنوعی باید از تست‌های سرتاسری (end-to-end) پنهانی عبور کند که مدل در طول مرحله توسعه خود هرگز آن‌ها را نمی‌بیند.

مقیاس این وظایف بی‌سابقه است. یک وظیفه خاص در این بنچمارک مستلزم آن بود که یک مدل هوش مصنوعی به مدت ۱۹ روز مداوم و بدون هیچ مداخله انسانی کار کند، که منجر به هزینه استنتاج ۲۶۰۰ دلاری برای تنها یک بار اجرا شد.

پیشتازی Claude Opus 4.7 در رقابت

نتایج بنچمارک سلسله‌مراتب مشخصی را در مدل‌های پیشرو فعلی نشان می‌دهد. Claude Opus 4.7 با نرخ حل ۵۶ درصدی به عنوان پیشرو ظاهر شد و عملکرد بسیار بهتری نسبت به GPT-5.5 با ۴۴ درصد و Gemini 3.1 Pro Preview با ۳۲ درصد داشت.

یک موفقیت برجسته مربوط به ابزار بیوانفورماتیک gotree بود. این برنامه شامل تقریباً ۱۶,۰۰۰ خط کد Go است و بیش از ۴۰ دستور مجزا دارد. در حالی که یک مهندس انسانی معمولاً بین ۲ تا ۱۷ هفته برای تکمیل چنین وظیفه‌ای نیاز دارد، Claude Opus 4.7 با موفقیت آن را تنها در ۱۴ ساعت و با هزینه ۲۵۱ دلار بازپیاده‌سازی کرد. حتی در مواردی که مدل‌ها در دستیابی به بازپیاده‌سازی ۱۰۰ درصد کامل شکست می‌خورند، به طرز چشمگیری بیش از ۹۰ درصد از تست‌های عملکردی را پشت سر می‌گذارند.

شکاف پیچیدگی و خطرات حفظ کردن (Memorization)

با وجود این جهش‌ها، نتایج MirrorCode یک «سقف پیچیدگی» متمایز را نشان می‌دهد. در حالی که تمام مدل‌های آزمایش‌شده برنامه‌های کوچک مانند uuid یا parseqsv را به طور قابل اعتمادی مدیریت می‌کنند، در حال حاضر هیچ مدلی توانایی حل کامل دسته‌بندی وظایف «بزرگ» را ندارد. مرزهای کدنویسی هوش مصنوعی هنوز هنگام مواجهه با عظیم‌ترین و متصل‌ترین معماری‌های نرم‌افزاری با چالش روبرو است.

Epoch AI همچنین به یک نگرانی حیاتی در ارزیابی LLMها پرداخت: آلودگی داده‌ها (data contamination). از آنجایی که این بنچمارک از برنامه‌های متن‌باز استفاده می‌کند، این خطر وجود دارد که مدل‌ها کد اصلی را در طول مراحل آموزش خود حفظ کرده باشند. اگرچه یافته‌های اولیه نشان می‌دهد که عملکرد صرفاً ناشی از حفظ کردن نیست، اما محققان اعتراف می‌کنند که نمی‌توانند نقش آن را در نرخ‌های حل فعلی کاملاً نادیده بگیرند.

چرا این موضوع برای صنعت هوش مصنوعی اهمیت دارد

MirrorCode نشان‌دهنده گذار از «هوش مصنوعی به عنوان یک Copilot» به «هوش مصنوعی به عنوان یک عامل خودمختار (Autonomous Agent)» است. با اثبات اینکه مدل‌ها می‌توانند استدلال خود را در دوره‌های ۱۹ روزه حفظ کنند و هزاران خط کد را مدیریت کنند، صنعت به سمت عامل‌هایی حرکت می‌کند که قادر به مدیریت کل چرخه حیات نرم‌افزار هستند. با نوسان هزینه‌های استنتاج — در حالی که هزینه GPT-5.5 سه برابر بیشتر از نسخه قبلی خود است و Claude Opus 4.7 سه برابر کارآمدتر شده است — توجیه اقتصادی مهندسی خودمختار به مرز بزرگ بعدی تبدیل خواهد شد.

نکات کلیدی

  • مقیاس جدید استدلال: MirrorCode با اجازه دادن به بودجه‌های استنتاج عظیم، مرزهای هوش مصنوعی را جابجا می‌کند؛ به طوری که هزینه‌ی تک‌وظایف می‌تواند تا ۲۶۰۰ دلار برسد و تا ۱۹ روز ادامه یابد.
  • پیشتازی Claude در عملکرد: Claude Opus 4.7 در حال حاضر با نرخ حل ۵۶٪، پیشرو در این بنچمارک است و توانایی‌های سطح بالایی را در بازپیاده‌سازی پایگاه‌های کد Go در مقیاس بزرگ نشان می‌دهد.
  • مانع پیچیدگی همچنان باقی است: در حالی که وظایف در مقیاس کوچک به طور قابل اعتمادی حل می‌شوند، هنوز هیچ مدل موجودی نمی‌تواند پیچیده‌ترین وظایف برنامه‌نویسی در مقیاس بزرگ را به طور کامل حل کند.