ಹೊಸ MirrorCode ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿ AI ಮಾದರಿಗಳು 19 ದಿನಗಳ ಕಾಲ ನಿರಂತರವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿವೆ

ಸ್ವಾಯತ್ತ ಸಾಫ್ಟ್‌ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್‌ನ ಭೂದೃಶ್ಯವು ಸರಳ ಕೋಡ್ ಸ್ನಿಪ್ಪೆಟ್‌ಗಳಿಂದ ಬೃಹತ್, ಬಹು-ದಿನಗಳ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಮ್ಯಾರಥಾನ್‌ಗಳತ್ತ ಬದಲಾಗುತ್ತಿದೆ. Epoch AI ಮತ್ತು METR ನಿಂದ ಹೊರಬಂದ MirrorCode ಎಂಬ ಹೊಸ ಬೆಂಚ್‌ಮಾರ್ಕ್, ಈ ಹಿಂದೆ ವಾರಗಟ್ಟಲೆ ಮಾನವ ಶ್ರಮ ಬೇಕಾಗುತ್ತಿದ್ದ ಸಂಕೀರ್ಣ ಮರು-ಅನುಷ್ಠಾನ (reimplementation) ಕಾರ್ಯಗಳನ್ನು ಈಗ AI ಮಾದರಿಗಳು ಎದುರಿಸಬಲ್ಲವು ಎಂದು ಬಹಿರಂಗಪಡಿಸಿದೆ.

MirrorCode ಮೂಲಕ AI ಗೆ ಸವಾಲು

ಸಾಂಪ್ರದಾಯಿಕ ಸಾಫ್ಟ್‌ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ ಕೇವಲ $1 ರಿಂದ $10 ರವರೆಗೆ ಇನ್ಫರೆನ್ಸ್ (inference) ವೆಚ್ಚವನ್ನು ಮಿತಿಗೊಳಿಸುತ್ತವೆ, ಆದರೆ MirrorCode ಅದರಿಂದ ಗಮನಾರ್ಹವಾಗಿ ಭಿನ್ನವಾಗಿದೆ. ಬದಲಾಗಿ, ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ AI ಮಾದರಿಗಳು ಮೂಲ ಸೋರ್ಸ್ ಕೋಡ್ ಇಲ್ಲದೆಯೇ—Unix ಉಪಯುಕ್ತತೆಗಳು ಮತ್ತು ಕ್ರಿಪ್ಟೋಗ್ರಫಿಯಿಂದ ಹಿಡಿದು ಬಯೋಇನ್ಫರ್ಮ್ಯಾಟಿಕ್ಸ್ ಮತ್ತು ಡೇಟಾ ಸೀರಿಯಲೈಸೇಶನ್ ವರೆಗಿನ—ಸಂಪೂರ್ಣ, ಸಂಕೀರ್ಣ ಪ್ರೋಗ್ರಾಂಗಳನ್ನು ಮೊದಲಿನಿಂದ ಮರು-ಅನುಷ್ಠಾನಗೊಳಿಸಬೇಕೆಂದು ಬಯಸುತ್ತದೆ. ನಿಜವಾದ ಕಾರ್ಯಚಟುವಟಿಕೆಯ ಸಮಾನತೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು, AI-ಸೃಷ್ಟಿಸಿದ ಪ್ರತಿಯೊಂದು ಪರಿಹಾರವು ಮಾದರಿಯು ತನ್ನ ಅಭಿವೃದ್ಧಿ ಹಂತದಲ್ಲಿ ಎಂದೂ ನೋಡದ ಗುಪ್ತ ಎಂಡ್-ಟು-ಎಂಡ್ ಪರೀಕ್ಷೆಗಳನ್ನು ಪಾಸು ಮಾಡಲೇಬೇಕು.

ಈ ಕಾರ್ಯಗಳ ಪ್ರಮಾಣವು ಅಭೂತಪೂರ್ವವಾಗಿದೆ. ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿನ ಒಂದು ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯವು ಯಾವುದೇ ಮಾನವ ಹಸ್ತಕ್ಷೇಪವಿಲ್ಲದೆ 19 ದಿನಗಳ ಕಾಲ ನಿರಂತರವಾಗಿ ಕೆಲಸ ಮಾಡಲು AI ಮಾದರಿಗೆ ಅಗತ್ಯವಿತ್ತು, ಇದು ಒಂದೇ ರನ್‌ಗಾಗಿ $2,600 ರ ಇನ್ಫರೆನ್ಸ್ ವೆಚ್ಚವನ್ನು ಉಂಟುಮಾಡಿತು.

Claude Opus 4.7 ಸ್ಪರ್ಧೆಯಲ್ಲಿ ಮುಂಚೂಣಿಯಲ್ಲಿ

ಬೆಂಚ್‌ಮಾರ್ಕ್ ಫಲಿತಾಂಶಗಳು ಪ್ರಸ್ತುತ ಫ್ರಾಂಟಿಯರ್ ಮಾದರಿಗಳಲ್ಲಿನ ಸ್ಪಷ್ಟ ಶ್ರೇಣೀಕರಣವನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತವೆ. Claude Opus 4.7 ಮಾದರಿಯು 56 ಪ್ರತಿಶತ ಪರಿಹಾರ ದರದಲ್ಲಿ ನಾಯಕನಾಗಿ ಹೊರಹೊಮ್ಮಿದೆ, ಇದು 44 ಪ್ರತಿಶತ ಸಾಧಿಸಿದ GPT-5.5 ಮತ್ತು 32 ಪ್ರತಿಶತದಲ್ಲಿರುವ Gemini 3.1 Pro Preview ಗಿಂತ ಗಮನಾರ್ಹವಾಗಿ ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡಿದೆ.

ಬಯೋಇನ್ಫರ್ಮ್ಯಾಟಿಕ್ಸ್ ಟೂಲ್‌ಕಿಟ್ gotree ಒಂದು ಗಮನಾರ್ಹ ಯಶಸ್ಸನ್ನು ದಾಖಲಿಸಿದೆ. ಈ ಪ್ರೋಗ್ರಾಂವು ಅಂದಾಜು 16,000 ಸಾಲುಗಳ Go ಕೋಡ್ ಅನ್ನು ಒಳಗೊಂಡಿದೆ ಮತ್ತು 40 ಕ್ಕೂ ಹೆಚ್ಚು ವಿಭಿನ್ನ ಕಮಾಂಡ್‌ಗಳನ್ನು ಹೊಂದಿದೆ. ಒಬ್ಬ ಮಾನವ ಎಂಜಿನಿಯರ್ ಇಂತಹ ಕಾರ್ಯವನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ಸಾಮಾನ್ಯವಾಗಿ 2 ರಿಂದ 17 ವಾರಗಳ ಅವಧಿಯನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು, ಆದರೆ Claude Opus 4.7 ಕೇವಲ 14 ಗಂಟೆಗಳಲ್ಲಿ $251 ವೆಚ್ಚದಲ್ಲಿ ಅದನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಮರು-ಅನುಷ್ಠಾನಗೊಳಿಸಿತು. ಮಾದರಿಗಳು 100 ಪ್ರತಿಶತ ಪರಿಪೂರ್ಣ ಮರು-ಅನುಷ್ಠಾನವನ್ನು ಸಾಧಿಸಲು ವಿಫಲವಾದ ಸಂದರ್ಭದಲ್ಲೂ ಸಹ, ಅವು ಗಮನಾರ್ಹವಾಗಿ 90 ಪ್ರತಿಶತಕ್ಕೂ ಹೆಚ್ಚು ಕಾರ್ಯಚಟುವಟಿಕೆಯ ಪರೀಕ್ಷೆಗಳನ್ನು ಪಾಸು ಮಾಡುತ್ತವೆ.

ಸಂಕೀರ್ಣತೆಯ ಅಂತರ ಮತ್ತು ನೆನಪಿಸಿಕೊಳ್ಳುವಿಕೆಯ (Memorization) ಅಪಾಯಗಳು

ಈ ಪ್ರಗತಿಗಳ ಹೊರತಾಗಿಯೂ, MirrorCode ಫಲಿತಾಂಶಗಳು ಒಂದು ವಿಶಿಷ್ಟವಾದ "ಸಂಕೀರ್ಣತೆಯ ಮಿತಿಯನ್ನು" (complexity ceiling) ಬಹಿರಂಗಪಡಿಸುತ್ತವೆ. ಪರೀಕ್ಷಿಸಿದ ಎಲ್ಲಾ ಮಾದರಿಗಳು uuid ಅಥವಾ parseqsv ನಂತಹ ಸಣ್ಣ ಪ್ರೋಗ್ರಾಂಗಳನ್ನು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ನಿರ್ವಹಿಸಿದರೂ, ಪ್ರಸ್ತುತ ಯಾವುದೇ ಮಾದರಿಯು "ದೊಡ್ಡ" (large) ವರ್ಗದ ಕಾರ್ಯಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಪರಿಹರಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿಲ್ಲ. ಅತ್ಯಂತ ಬೃಹತ್ ಮತ್ತು ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿರುವ ಸಾಫ್ಟ್‌ವೇರ್ ಆರ್ಕಿಟೆಕ್ಚರ್‌ಗಳನ್ನು ಎದುರಿಸಿದಾಗ AI ಕೋಡಿಂಗ್‌ನ ಮುಂಚೂಣಿಯು ಇನ್ನೂ ಸಂಕಷ್ಟಪಡುತ್ತಿದೆ.

Epoch AI ಅವರು LLM ಮೌಲ್ಯಮಾಪನದಲ್ಲಿನ ಒಂದು ನಿರ್ಣಾಯಕ ಕಳಕಳಿಯನ್ನು ಸಹ ಎತ್ತಿ ತೋರಿಸಿದ್ದಾರೆ: ಡೇಟಾ ಕಂಟಮಿನೇಷನ್ (data contamination). ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಓಪನ್-ಸೋರ್ಸ್ ಪ್ರೋಗ್ರಾಂಗಳನ್ನು ಬಳಸುವುದರಿಂದ, ಮಾದರಿಗಳು ತಮ್ಮ ತರಬೇತಿ ಹಂತಗಳಲ್ಲೇ ಮೂಲ ಕೋಡ್ ಅನ್ನು ಈಗಾಗಲೇ ನೆನಪಿಟ್ಟುಕೊಂಡಿರುವ ಅಪಾಯವಿದೆ. ಪ್ರದರ್ಶನವು ಕೇವಲ ನೆನಪಿಸಿಕೊಳ್ಳುವಿಕೆಯಿಂದ (memorization) ಮಾತ್ರ ಸಾಧ್ಯವಿಲ್ಲ ಎಂದು ಆರಂಭಿಕ ಸಂಶೋಧನೆಗಳು ಸೂಚಿಸಿದರೂ ಸಹ, ಪ್ರಸ್ತುತ ಪರಿಹಾರ ದರಗಳಿಗೆ ಅದರ ಕೊಡುಗೆಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ನಿರ್ಲಕ್ಷಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ ಎಂದು ಸಂಶೋಧಕರು ಒಪ್ಪಿಕೊಂಡಿದ್ದಾರೆ.

ಇದು AI ಉದ್ಯಮಕ್ಕೆ ಏಕೆ ಮುಖ್ಯ

MirrorCode "AI ಅನ್ನು ಕopilotವಾಗಿ" ಬಳಸುವುದರಿಂದ "AI ಅನ್ನು ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್ ಆಗಿ" ಬಳಸುವ ಕಡೆಗೆ ಬದಲಾವಣೆಯನ್ನು ಸೂಚಿಸುತ್ತದೆ. ಮಾದರಿಗಳು 19 ದಿನಗಳ ಅವಧಿಯವರೆಗೆ ತಾರ್ಕಿಕತೆಯನ್ನು (reasoning) ಕಾಯ್ದುಕೊಳ್ಳಬಲ್ಲವು ಮತ್ತು ಸಾವಿರಾರು ಸಾಲುಗಳ ಕೋಡ್ ಅನ್ನು ನಿರ್ವಹಿಸಬಲ್ಲವು ಎಂದು ಸಾಬೀತುಪಡಿಸುವ ಮೂಲಕ, ಉದ್ಯಮವು ಸಂಪೂರ್ಣ ಸಾಫ್ಟ್‌ವೇರ್ ಜೀವನಚಕ್ರವನ್ನು ನಿರ್ವಹಿಸಬಲ್ಲ ಏಜೆಂಟ್‌ಗಳತ್ತ ಸಾಗುತ್ತಿದೆ. ಇನ್ಫರೆನ್ಸ್ ವೆಚ್ಚಗಳು ಏರಿಳಿತವಾಗುತ್ತಿರುವಾಗ—GPT-5.5 ತನ್ನ ಹಿಂದಿನ ಮಾದರಿಗಿಂತ ಮೂರು ಪಟ್ಟು ಹೆಚ್ಚು ವೆಚ್ಚವನ್ನು ಹೊಂದಿದ್ದರೆ, Claude Opus 4.7 ಮೂರು ಪಟ್ಟು ಹೆಚ್ಚು ದಕ್ಷತೆಯನ್ನು ಹೊಂದಿದため—ಸ್ವಾಯತ್ತ ಎಂಜಿನಿಯರಿಂಗ್‌ನ ಆರ್ಥಿಕ ಕಾರ್ಯಸಾಧ್ಯತೆಯು ಮುಂದಿನ ದೊಡ್ಡ ಮೈಲಿಗಲ್ಲಾಗಲಿದೆ.

ಪ್ರಮುಖ ಅಂಶಗಳು

  • ತಾರ್ಕಿಕತೆಯ ಹೊಸ ಪ್ರಮಾಣ: MirrorCode ಬೃಹತ್ ಇನ್ಫರೆನ್ಸ್ ಬಜೆಟ್‌ಗಳನ್ನು ಅನುಮತಿಸುವ ಮೂಲಕ AI ಮಿತಿಗಳನ್ನು ತಳ್ಳುತ್ತದೆ, ಇಲ್ಲಿ ಒಂದೇ ಕಾರ್ಯವು $2,600 ವರೆಗೆ ವೆಚ್ಚವಾಗಬಹುದು ಮತ್ತು 19 ದಿನಗಳ ಕಾಲ ಚಲಿಸಬಹುದು.
  • Claude ಪ್ರದರ್ಶನದಲ್ಲಿ ಮುಂಚೂಣಿಯಲ್ಲಿ: Claude Opus 4.7 ಪ್ರಸ್ತುತ 56% ಪರಿಹಾರ ದರದಲ್ಲಿ ಬೆಂಚ್‌ಮಾರ್ಕ್ ನಾಯಕನಾಗಿದ್ದು, ಬೃಹತ್ ಪ್ರಮಾಣದ Go ಕೋಡ್‌ಬೇಸ್‌ಗಳನ್ನು ಮರು-ಅನುಷ್ಠಾನಗೊಳಿಸುವಲ್ಲಿ ಅತ್ಯುನ್ನತ ಸಾಮರ್ಥ್ಯವನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತಿದೆ.
  • ಸಂಕೀರ್ಣತೆಯ ಅಡೆತಡೆಗಳು ಇಂದಿಗೂ ಇವೆ: ಸಣ್ಣ ಪ್ರಮಾಣದ ಕಾರ್ಯಗಳನ್ನು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಪರಿಹರಿಸಲಾಗುತ್ತಿದ್ದರೂ, ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಯಾವುದೇ ಮಾದರಿಯು ಅತ್ಯಂತ ಸಂಕೀರ್ಣವಾದ, ಬೃಹತ್ ಪ್ರಮಾಣದ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಕಾರ್ಯಗಳನ್ನು ಇನ್ನೂ ಸಂಪೂರ್ಣವಾಗಿ ಪೂರ್ಣಗೊಳಿಸಲು ಸಾಧ್ಯವಾಗಿಲ್ಲ.