โมเดล AI ทำงานต่อเนื่องไม่หยุดพักนานถึง 19 วัน ในการทดสอบ MirrorCode Benchmark ใหม่

ภูมิทัศน์ของการวิศวกรรมซอฟต์แวร์แบบอัตโนมัติ (autonomous software engineering) กำลังเปลี่ยนผ่านจากการเขียนโค้ดสั้นๆ ไปสู่การเขียนโปรแกรมมาราธอนที่กินเวลานานหลายวัน Benchmark ใหม่จาก Epoch AI และ METR ที่ชื่อว่า MirrorCode เผยให้เห็นว่าโมเดล AI ในปัจจุบันสามารถจัดการกับงานเขียนโปรแกรมขึ้นมาใหม่ (reimplementation) ที่มีความซับซ้อน ซึ่งก่อนหน้านี้ต้องใช้แรงงานมนุษย์นานหลายสัปดาห์

ท้าทาย AI ด้วย MirrorCode

MirrorCode ถือเป็นการเปลี่ยนแปลงครั้งสำคัญจาก Benchmark ด้านวิศวกรรมซอฟต์แวร์แบบดั้งเดิม ซึ่งโดยปกติจะจำกัดค่าใช้จ่ายในการประมวลผล (inference cost) ไว้เพียง 1 ถึง 10 ดอลลาร์ต่อหนึ่งงาน แต่ Benchmark นี้กำหนดให้โมเดล AI ต้องเขียนโปรแกรมที่สมบูรณ์และซับซ้อนขึ้นมาใหม่ตั้งแต่ต้น ตั้งแต่ยูทิลิตี้ของ Unix และวิทยาการรหัสลับ (cryptography) ไปจนถึงชีวสารสนเทศศาสตร์ (bioinformatics) และการจัดลำดับข้อมูล (data serialization) โดยที่ไม่มีสิทธิ์เข้าถึงซอร์สโค้ดต้นฉบับ เพื่อให้มั่นใจว่าการทำงานจะเหมือนกันทุกประการ ทุกโซลูชันที่สร้างโดย AI จะต้องผ่านการทดสอบแบบ end-to-end ที่ถูกซ่อนไว้ ซึ่งโมเดลจะไม่เห็นการทดสอบเหล่านี้ในระหว่างขั้นตอนการพัฒนา

ขนาดของงานเหล่านี้ไม่เคยปรากฏมาก่อน มีงานหนึ่งใน Benchmark นี้ที่กำหนดให้โมเดล AI ต้องทำงานอย่างต่อเนื่องนานถึง 19 วันโดยไม่มีมนุษย์เข้ามาแทรกแซง ส่งผลให้มีค่าใช้จ่ายในการประมวลผลสูงถึง 2,600 ดอลลาร์ต่อการรันเพียงครั้งเดียว

Claude Opus 4.7 เป็นผู้นำในการแข่งขัน

ผลลัพธ์ของ Benchmark แสดงให้เห็นถึงลำดับขั้นที่ชัดเจนของโมเดลระดับแนวหน้า (frontier models) ในปัจจุบัน โดย Claude Opus 4.7 ก้าวขึ้นมาเป็นผู้นำด้วยอัตราการแก้โจทย์สำเร็จที่ 56 เปอร์เซ็นต์ ซึ่งทำผลงานได้เหนือกว่า GPT-5.5 ที่ทำได้ 44 เปอร์เซ็นต์ และ Gemini 3.1 Pro Preview ที่อยู่ที่ 32 เปอร์เซ็นต์ อย่างมีนัยสำคัญ

ความสำเร็จที่โดดเด่นอย่างหนึ่งคือชุดเครื่องมือชีวสารสนเทศศาสตร์ gotree โปรแกรมนี้ประกอบด้วยโค้ดภาษา Go ประมาณ 16,000 บรรทัด และมีคำสั่งที่แตกต่างกันมากกว่า 40 คำสั่ง ในขณะที่วิศวกรที่เป็นมนุษย์มักจะต้องใช้เวลา 2 ถึง 17 สัปดาห์ในการทำงานนี้ให้สำเร็จ แต่ Claude Opus 4.7 สามารถเขียนโปรแกรมขึ้นมาใหม่ได้สำเร็จในเวลาเพียง 14 ชั่วโมง ด้วยค่าใช้จ่าย 251 ดอลลาร์ แม้ในกรณีที่โมเดลไม่สามารถเขียนโปรแกรมขึ้นมาใหม่ได้อย่างสมบูรณ์แบบ 100 เปอร์เซ็นต์ แต่พวกมันก็สามารถผ่านการทดสอบการทำงานได้มากกว่า 90 เปอร์เซ็นต์อย่างน่าทึ่ง

ช่องว่างด้านความซับซ้อนและความเสี่ยงจากการจดจำข้อมูล

แม้จะมีความก้าวหน้าเหล่านี้ แต่ผลลัพธ์ของ MirrorCode ก็เผยให้เห็น "เพดานความซับซ้อน" (complexity ceiling) ที่ชัดเจน แม้ว่าโมเดลที่ผ่านการทดสอบทั้งหมดจะสามารถจัดการกับโปรแกรมขนาดเล็กอย่าง uuid หรือ parseqsv ได้อย่างน่าเชื่อถือ แต่ในปัจจุบันยังไม่มีโมเดลใดที่มีความสามารถในการแก้โจทย์ในหมวดหมู่ "ขนาดใหญ่" (large) ได้อย่างสมบูรณ์ พรมแดนของการเขียนโค้ดด้วย AI ยังคงเผชิญกับความยากลำบากเมื่อต้องรับมือกับสถาปัตยกรรมซอฟต์แวร์ที่มีขนาดใหญ่และมีความเชื่อมโยงกันอย่างมหาศาล

Epoch AI ยังได้กล่าวถึงข้อกังวลที่สำคัญในการประเมิน LLM นั่นคือ การปนเปื้อนของข้อมูล (data contamination) เนื่องจาก Benchmark นี้ใช้โปรแกรมโอเพนซอร์ส จึงมีความเสี่ยงที่โมเดลอาจจะจดจำโค้ดต้นฉบับได้แล้วในระหว่างขั้นตอนการฝึกฝน แม้ว่าผลการศึกษาเบื้องต้นจะบ่งชี้ว่าประสิทธิภาพไม่ได้เกิดจากการจดจำเพียงอย่างเดียว แต่นักวิจัยก็ยอมรับว่าไม่สามารถตัดประเด็นเรื่องการจดจำที่มีส่วนต่ออัตราการแก้โจทย์ในปัจจุบันออกไปได้ทั้งหมด

ทำไมเรื่องนี้จึงสำคัญต่ออุตสาหกรรม AI

MirrorCode ส่งสัญญาณถึงการเปลี่ยนผ่านจาก "AI ในฐานะ Copilot" ไปสู่ "AI ในฐานะ Autonomous Agent" การพิสูจน์ว่าโมเดลสามารถรักษาความสามารถในการใช้เหตุผล (reasoning) ต่อเนื่องเป็นเวลา 19 วัน และจัดการกับโค้ดหลายพันบรรทัดได้ ทำให้ภาคอุตสาหกรรมขยับเข้าใกล้การมีเอเจนต์ที่สามารถจัดการวงจรชีวิตของซอฟต์แวร์ (software lifecycles) ได้ทั้งระบบ ในขณะที่ค่าใช้จ่ายในการประมวลผลมีความผันผวน โดย GPT-5.5 มีค่าใช้จ่ายสูงกว่ารุ่นก่อนหน้าถึงสามเท่า ในขณะที่ Claude Opus 4.7 มีประสิทธิภาพมากขึ้นถึงสามเท่า ความเป็นไปได้ทางเศรษฐกิจของการวิศวกรรมแบบอัตโนมัติจะกลายเป็นพรมแดนใหม่ที่สำคัญต่อไป

สรุปประเด็นสำคัญ

  • ขอบเขตใหม่ของการใช้เหตุผล: MirrorCode ผลักดันขีดจำกัดของ AI โดยการอนุญาตให้มีงบประมาณการประมวลผลมหาศาล โดยงานเพียงงานเดียวอาจมีค่าใช้จ่ายสูงถึง 2,600 ดอลลาร์ และใช้เวลาทำงานนานถึง 19 วัน
  • Claude เป็นผู้นำด้านประสิทธิภาพ: ปัจจุบัน Claude Opus 4.7 เป็นผู้นำใน Benchmark นี้ด้วยอัตราการแก้โจทย์สำเร็จที่ 56% แสดงให้เห็นถึงความสามารถระดับสูงในการเขียนโปรแกรมภาษา Go ขนาดใหญ่ขึ้นมาใหม่
  • อุปสรรคด้านความซับซ้อนยังคงอยู่: แม้ว่างานขนาดเล็กจะได้รับการแก้ไขอย่างน่าเชื่อถือ แต่ยังไม่มีโมเดลใดในปัจจุบันที่สามารถจัดการกับงานเขียนโปรแกรมขนาดใหญ่ที่มีความซับซ้อนที่สุดได้อย่างสมบูรณ์