مدلهای هوش مصنوعی در بنچمارک جدید MirrorCode به مدت ۱۹ روز بدون وقفه اجرا شدند
چشمانداز مهندسی نرمافزار خودمختار از قطعهکدهای ساده به ماراتنهای برنامهنویسی عظیم و چندروزه در حال تغییر است. بنچمارک جدیدی از Epoch AI و METR به نام MirrorCode نشان میدهد که مدلهای هوش مصنوعی اکنون میتوانند وظایف پیچیده بازپیادهسازی (reimplementation) را انجام دهند که پیش از این هفتهها کار انسانی میطلبید.
به چالش کشیدن هوش مصنوعی با MirrorCode
MirrorCode نشاندهنده تغییری بزرگ نسبت به بنچمارکهای سنتی مهندسی نرمافزار است که معمولاً هزینههای استنتاج (inference) را به تنها ۱ تا ۱۰ دلار برای هر وظیفه محدود میکنند. در عوض، این بنچمارک از مدلهای هوش مصنوعی میخواهد که برنامههای کامل و پیچیده را از ابتدا بازپیادهسازی کنند—از ابزارهای Unix و رمزنگاری گرفته تا بیوانفورماتیک و سریالسازی دادهها (data serialization)—بدون اینکه به کد منبع اصلی دسترسی داشته باشند. برای اطمینان از معادل بودن عملکردی واقعی، هر راهکار تولید شده توسط هوش مصنوعی باید از تستهای سرتاسری (end-to-end) پنهانی عبور کند که مدل در طول مرحله توسعه خود هرگز آنها را نمیبیند.
مقیاس این وظایف بیسابقه است. یک وظیفه خاص در این بنچمارک مستلزم آن بود که یک مدل هوش مصنوعی به مدت ۱۹ روز مداوم و بدون هیچ مداخله انسانی کار کند، که منجر به هزینه استنتاج ۲۶۰۰ دلاری برای تنها یک بار اجرا شد.
پیشتازی Claude Opus 4.7 در رقابت
نتایج بنچمارک سلسلهمراتب مشخصی را در مدلهای پیشرو فعلی نشان میدهد. Claude Opus 4.7 با نرخ حل ۵۶ درصدی به عنوان پیشرو ظاهر شد و عملکرد بسیار بهتری نسبت به GPT-5.5 با ۴۴ درصد و Gemini 3.1 Pro Preview با ۳۲ درصد داشت.
یک موفقیت برجسته مربوط به ابزار بیوانفورماتیک gotree بود. این برنامه شامل تقریباً ۱۶,۰۰۰ خط کد Go است و بیش از ۴۰ دستور مجزا دارد. در حالی که یک مهندس انسانی معمولاً بین ۲ تا ۱۷ هفته برای تکمیل چنین وظیفهای نیاز دارد، Claude Opus 4.7 با موفقیت آن را تنها در ۱۴ ساعت و با هزینه ۲۵۱ دلار بازپیادهسازی کرد. حتی در مواردی که مدلها در دستیابی به بازپیادهسازی ۱۰۰ درصد کامل شکست میخورند، به طرز چشمگیری بیش از ۹۰ درصد از تستهای عملکردی را پشت سر میگذارند.
شکاف پیچیدگی و خطرات حفظ کردن (Memorization)
با وجود این جهشها، نتایج MirrorCode یک «سقف پیچیدگی» متمایز را نشان میدهد. در حالی که تمام مدلهای آزمایششده برنامههای کوچک مانند uuid یا parseqsv را به طور قابل اعتمادی مدیریت میکنند، در حال حاضر هیچ مدلی توانایی حل کامل دستهبندی وظایف «بزرگ» را ندارد. مرزهای کدنویسی هوش مصنوعی هنوز هنگام مواجهه با عظیمترین و متصلترین معماریهای نرمافزاری با چالش روبرو است.
Epoch AI همچنین به یک نگرانی حیاتی در ارزیابی LLMها پرداخت: آلودگی دادهها (data contamination). از آنجایی که این بنچمارک از برنامههای متنباز استفاده میکند، این خطر وجود دارد که مدلها کد اصلی را در طول مراحل آموزش خود حفظ کرده باشند. اگرچه یافتههای اولیه نشان میدهد که عملکرد صرفاً ناشی از حفظ کردن نیست، اما محققان اعتراف میکنند که نمیتوانند نقش آن را در نرخهای حل فعلی کاملاً نادیده بگیرند.
چرا این موضوع برای صنعت هوش مصنوعی اهمیت دارد
MirrorCode نشاندهنده گذار از «هوش مصنوعی به عنوان یک Copilot» به «هوش مصنوعی به عنوان یک عامل خودمختار (Autonomous Agent)» است. با اثبات اینکه مدلها میتوانند استدلال خود را در دورههای ۱۹ روزه حفظ کنند و هزاران خط کد را مدیریت کنند، صنعت به سمت عاملهایی حرکت میکند که قادر به مدیریت کل چرخه حیات نرمافزار هستند. با نوسان هزینههای استنتاج — در حالی که هزینه GPT-5.5 سه برابر بیشتر از نسخه قبلی خود است و Claude Opus 4.7 سه برابر کارآمدتر شده است — توجیه اقتصادی مهندسی خودمختار به مرز بزرگ بعدی تبدیل خواهد شد.
نکات کلیدی
- مقیاس جدید استدلال: MirrorCode با اجازه دادن به بودجههای استنتاج عظیم، مرزهای هوش مصنوعی را جابجا میکند؛ به طوری که هزینهی تکوظایف میتواند تا ۲۶۰۰ دلار برسد و تا ۱۹ روز ادامه یابد.
- پیشتازی Claude در عملکرد: Claude Opus 4.7 در حال حاضر با نرخ حل ۵۶٪، پیشرو در این بنچمارک است و تواناییهای سطح بالایی را در بازپیادهسازی پایگاههای کد Go در مقیاس بزرگ نشان میدهد.
- مانع پیچیدگی همچنان باقی است: در حالی که وظایف در مقیاس کوچک به طور قابل اعتمادی حل میشوند، هنوز هیچ مدل موجودی نمیتواند پیچیدهترین وظایف برنامهنویسی در مقیاس بزرگ را به طور کامل حل کند.
