ಹೊಸ MirrorCode ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿ AI ಮಾದರಿಗಳು 19 ದಿನಗಳ ಕಾಲ ನಿರಂತರವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿವೆ

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialಕಳೆದ ವಾರ3min read

In this article

ಹೊಸ MirrorCode ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿ AI ಮಾದರಿಗಳು 19 ದಿನಗಳ ಕಾಲ ನಿರಂತರವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿವೆ

ಸ್ವಾಯತ್ತ ಸಾಫ್ಟ್‌ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್‌ನ ಭೂದೃಶ್ಯವು ಸರಳ ಕೋಡ್ ಸ್ನಿಪ್ಪೆಟ್‌ಗಳಿಂದ ಬೃಹತ್, ಬಹು-ದಿನಗಳ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಮ್ಯಾರಥಾನ್‌ಗಳತ್ತ ಬದಲಾಗುತ್ತಿದೆ. Epoch AI ಮತ್ತು METR ನಿಂದ ಹೊರಬಂದ MirrorCode ಎಂಬ ಹೊಸ ಬೆಂಚ್‌ಮಾರ್ಕ್, ಈ ಹಿಂದೆ ವಾರಗಟ್ಟಲೆ ಮಾನವ ಶ್ರಮ ಬೇಕಾಗುತ್ತಿದ್ದ ಸಂಕೀರ್ಣ ಮರು-ಅನುಷ್ಠಾನ (reimplementation) ಕಾರ್ಯಗಳನ್ನು ಈಗ AI ಮಾದರಿಗಳು ಎದುರಿಸಬಲ್ಲವು ಎಂದು ಬಹಿರಂಗಪಡಿಸಿದೆ.

MirrorCode ಮೂಲಕ AI ಗೆ ಸವಾಲು

ಸಾಂಪ್ರದಾಯಿಕ ಸಾಫ್ಟ್‌ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ ಕೇವಲ $1 ರಿಂದ $10 ರವರೆಗೆ ಇನ್ಫರೆನ್ಸ್ (inference) ವೆಚ್ಚವನ್ನು ಮಿತಿಗೊಳಿಸುತ್ತವೆ, ಆದರೆ MirrorCode ಅದರಿಂದ ಗಮನಾರ್ಹವಾಗಿ ಭಿನ್ನವಾಗಿದೆ. ಬದಲಾಗಿ, ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ AI ಮಾದರಿಗಳು ಮೂಲ ಸೋರ್ಸ್ ಕೋಡ್ ಇಲ್ಲದೆಯೇ—Unix ಉಪಯುಕ್ತತೆಗಳು ಮತ್ತು ಕ್ರಿಪ್ಟೋಗ್ರಫಿಯಿಂದ ಹಿಡಿದು ಬಯೋಇನ್ಫರ್ಮ್ಯಾಟಿಕ್ಸ್ ಮತ್ತು ಡೇಟಾ ಸೀರಿಯಲೈಸೇಶನ್ ವರೆಗಿನ—ಸಂಪೂರ್ಣ, ಸಂಕೀರ್ಣ ಪ್ರೋಗ್ರಾಂಗಳನ್ನು ಮೊದಲಿನಿಂದ ಮರು-ಅನುಷ್ಠಾನಗೊಳಿಸಬೇಕೆಂದು ಬಯಸುತ್ತದೆ. ನಿಜವಾದ ಕಾರ್ಯಚಟುವಟಿಕೆಯ ಸಮಾನತೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು, AI-ಸೃಷ್ಟಿಸಿದ ಪ್ರತಿಯೊಂದು ಪರಿಹಾರವು ಮಾದರಿಯು ತನ್ನ ಅಭಿವೃದ್ಧಿ ಹಂತದಲ್ಲಿ ಎಂದೂ ನೋಡದ ಗುಪ್ತ ಎಂಡ್-ಟು-ಎಂಡ್ ಪರೀಕ್ಷೆಗಳನ್ನು ಪಾಸು ಮಾಡಲೇಬೇಕು.

ಈ ಕಾರ್ಯಗಳ ಪ್ರಮಾಣವು ಅಭೂತಪೂರ್ವವಾಗಿದೆ. ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿನ ಒಂದು ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯವು ಯಾವುದೇ ಮಾನವ ಹಸ್ತಕ್ಷೇಪವಿಲ್ಲದೆ 19 ದಿನಗಳ ಕಾಲ ನಿರಂತರವಾಗಿ ಕೆಲಸ ಮಾಡಲು AI ಮಾದರಿಗೆ ಅಗತ್ಯವಿತ್ತು, ಇದು ಒಂದೇ ರನ್‌ಗಾಗಿ $2,600 ರ ಇನ್ಫರೆನ್ಸ್ ವೆಚ್ಚವನ್ನು ಉಂಟುಮಾಡಿತು.

Claude Opus 4.7 ಸ್ಪರ್ಧೆಯಲ್ಲಿ ಮುಂಚೂಣಿಯಲ್ಲಿ

ಬೆಂಚ್‌ಮಾರ್ಕ್ ಫಲಿತಾಂಶಗಳು ಪ್ರಸ್ತುತ ಫ್ರಾಂಟಿಯರ್ ಮಾದರಿಗಳಲ್ಲಿನ ಸ್ಪಷ್ಟ ಶ್ರೇಣೀಕರಣವನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತವೆ. Claude Opus 4.7 ಮಾದರಿಯು 56 ಪ್ರತಿಶತ ಪರಿಹಾರ ದರದಲ್ಲಿ ನಾಯಕನಾಗಿ ಹೊರಹೊಮ್ಮಿದೆ, ಇದು 44 ಪ್ರತಿಶತ ಸಾಧಿಸಿದ GPT-5.5 ಮತ್ತು 32 ಪ್ರತಿಶತದಲ್ಲಿರುವ Gemini 3.1 Pro Preview ಗಿಂತ ಗಮನಾರ್ಹವಾಗಿ ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡಿದೆ.

ಬಯೋಇನ್ಫರ್ಮ್ಯಾಟಿಕ್ಸ್ ಟೂಲ್‌ಕಿಟ್ gotree ಒಂದು ಗಮನಾರ್ಹ ಯಶಸ್ಸನ್ನು ದಾಖಲಿಸಿದೆ. ಈ ಪ್ರೋಗ್ರಾಂವು ಅಂದಾಜು 16,000 ಸಾಲುಗಳ Go ಕೋಡ್ ಅನ್ನು ಒಳಗೊಂಡಿದೆ ಮತ್ತು 40 ಕ್ಕೂ ಹೆಚ್ಚು ವಿಭಿನ್ನ ಕಮಾಂಡ್‌ಗಳನ್ನು ಹೊಂದಿದೆ. ಒಬ್ಬ ಮಾನವ ಎಂಜಿನಿಯರ್ ಇಂತಹ ಕಾರ್ಯವನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ಸಾಮಾನ್ಯವಾಗಿ 2 ರಿಂದ 17 ವಾರಗಳ ಅವಧಿಯನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು, ಆದರೆ Claude Opus 4.7 ಕೇವಲ 14 ಗಂಟೆಗಳಲ್ಲಿ $251 ವೆಚ್ಚದಲ್ಲಿ ಅದನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಮರು-ಅನುಷ್ಠಾನಗೊಳಿಸಿತು. ಮಾದರಿಗಳು 100 ಪ್ರತಿಶತ ಪರಿಪೂರ್ಣ ಮರು-ಅನುಷ್ಠಾನವನ್ನು ಸಾಧಿಸಲು ವಿಫಲವಾದ ಸಂದರ್ಭದಲ್ಲೂ ಸಹ, ಅವು ಗಮನಾರ್ಹವಾಗಿ 90 ಪ್ರತಿಶತಕ್ಕೂ ಹೆಚ್ಚು ಕಾರ್ಯಚಟುವಟಿಕೆಯ ಪರೀಕ್ಷೆಗಳನ್ನು ಪಾಸು ಮಾಡುತ್ತವೆ.

ಸಂಕೀರ್ಣತೆಯ ಅಂತರ ಮತ್ತು ನೆನಪಿಸಿಕೊಳ್ಳುವಿಕೆಯ (Memorization) ಅಪಾಯಗಳು

ಈ ಪ್ರಗತಿಗಳ ಹೊರತಾಗಿಯೂ, MirrorCode ಫಲಿತಾಂಶಗಳು ಒಂದು ವಿಶಿಷ್ಟವಾದ "ಸಂಕೀರ್ಣತೆಯ ಮಿತಿಯನ್ನು" (complexity ceiling) ಬಹಿರಂಗಪಡಿಸುತ್ತವೆ. ಪರೀಕ್ಷಿಸಿದ ಎಲ್ಲಾ ಮಾದರಿಗಳು uuid ಅಥವಾ parseqsv ನಂತಹ ಸಣ್ಣ ಪ್ರೋಗ್ರಾಂಗಳನ್ನು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ನಿರ್ವಹಿಸಿದರೂ, ಪ್ರಸ್ತುತ ಯಾವುದೇ ಮಾದರಿಯು "ದೊಡ್ಡ" (large) ವರ್ಗದ ಕಾರ್ಯಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಪರಿಹರಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿಲ್ಲ. ಅತ್ಯಂತ ಬೃಹತ್ ಮತ್ತು ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿರುವ ಸಾಫ್ಟ್‌ವೇರ್ ಆರ್ಕಿಟೆಕ್ಚರ್‌ಗಳನ್ನು ಎದುರಿಸಿದಾಗ AI ಕೋಡಿಂಗ್‌ನ ಮುಂಚೂಣಿಯು ಇನ್ನೂ ಸಂಕಷ್ಟಪಡುತ್ತಿದೆ.

Epoch AI ಅವರು LLM ಮೌಲ್ಯಮಾಪನದಲ್ಲಿನ ಒಂದು ನಿರ್ಣಾಯಕ ಕಳಕಳಿಯನ್ನು ಸಹ ಎತ್ತಿ ತೋರಿಸಿದ್ದಾರೆ: ಡೇಟಾ ಕಂಟಮಿನೇಷನ್ (data contamination). ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಓಪನ್-ಸೋರ್ಸ್ ಪ್ರೋಗ್ರಾಂಗಳನ್ನು ಬಳಸುವುದರಿಂದ, ಮಾದರಿಗಳು ತಮ್ಮ ತರಬೇತಿ ಹಂತಗಳಲ್ಲೇ ಮೂಲ ಕೋಡ್ ಅನ್ನು ಈಗಾಗಲೇ ನೆನಪಿಟ್ಟುಕೊಂಡಿರುವ ಅಪಾಯವಿದೆ. ಪ್ರದರ್ಶನವು ಕೇವಲ ನೆನಪಿಸಿಕೊಳ್ಳುವಿಕೆಯಿಂದ (memorization) ಮಾತ್ರ ಸಾಧ್ಯವಿಲ್ಲ ಎಂದು ಆರಂಭಿಕ ಸಂಶೋಧನೆಗಳು ಸೂಚಿಸಿದರೂ ಸಹ, ಪ್ರಸ್ತುತ ಪರಿಹಾರ ದರಗಳಿಗೆ ಅದರ ಕೊಡುಗೆಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ನಿರ್ಲಕ್ಷಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ ಎಂದು ಸಂಶೋಧಕರು ಒಪ್ಪಿಕೊಂಡಿದ್ದಾರೆ.

ಇದು AI ಉದ್ಯಮಕ್ಕೆ ಏಕೆ ಮುಖ್ಯ

MirrorCode "AI ಅನ್ನು ಕopilotವಾಗಿ" ಬಳಸುವುದರಿಂದ "AI ಅನ್ನು ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್ ಆಗಿ" ಬಳಸುವ ಕಡೆಗೆ ಬದಲಾವಣೆಯನ್ನು ಸೂಚಿಸುತ್ತದೆ. ಮಾದರಿಗಳು 19 ದಿನಗಳ ಅವಧಿಯವರೆಗೆ ತಾರ್ಕಿಕತೆಯನ್ನು (reasoning) ಕಾಯ್ದುಕೊಳ್ಳಬಲ್ಲವು ಮತ್ತು ಸಾವಿರಾರು ಸಾಲುಗಳ ಕೋಡ್ ಅನ್ನು ನಿರ್ವಹಿಸಬಲ್ಲವು ಎಂದು ಸಾಬೀತುಪಡಿಸುವ ಮೂಲಕ, ಉದ್ಯಮವು ಸಂಪೂರ್ಣ ಸಾಫ್ಟ್‌ವೇರ್ ಜೀವನಚಕ್ರವನ್ನು ನಿರ್ವಹಿಸಬಲ್ಲ ಏಜೆಂಟ್‌ಗಳತ್ತ ಸಾಗುತ್ತಿದೆ. ಇನ್ಫರೆನ್ಸ್ ವೆಚ್ಚಗಳು ಏರಿಳಿತವಾಗುತ್ತಿರುವಾಗ—GPT-5.5 ತನ್ನ ಹಿಂದಿನ ಮಾದರಿಗಿಂತ ಮೂರು ಪಟ್ಟು ಹೆಚ್ಚು ವೆಚ್ಚವನ್ನು ಹೊಂದಿದ್ದರೆ, Claude Opus 4.7 ಮೂರು ಪಟ್ಟು ಹೆಚ್ಚು ದಕ್ಷತೆಯನ್ನು ಹೊಂದಿದため—ಸ್ವಾಯತ್ತ ಎಂಜಿನಿಯರಿಂಗ್‌ನ ಆರ್ಥಿಕ ಕಾರ್ಯಸಾಧ್ಯತೆಯು ಮುಂದಿನ ದೊಡ್ಡ ಮೈಲಿಗಲ್ಲಾಗಲಿದೆ.

ಪ್ರಮುಖ ಅಂಶಗಳು

ತಾರ್ಕಿಕತೆಯ ಹೊಸ ಪ್ರಮಾಣ: MirrorCode ಬೃಹತ್ ಇನ್ಫರೆನ್ಸ್ ಬಜೆಟ್‌ಗಳನ್ನು ಅನುಮತಿಸುವ ಮೂಲಕ AI ಮಿತಿಗಳನ್ನು ತಳ್ಳುತ್ತದೆ, ಇಲ್ಲಿ ಒಂದೇ ಕಾರ್ಯವು $2,600 ವರೆಗೆ ವೆಚ್ಚವಾಗಬಹುದು ಮತ್ತು 19 ದಿನಗಳ ಕಾಲ ಚಲಿಸಬಹುದು.
Claude ಪ್ರದರ್ಶನದಲ್ಲಿ ಮುಂಚೂಣಿಯಲ್ಲಿ: Claude Opus 4.7 ಪ್ರಸ್ತುತ 56% ಪರಿಹಾರ ದರದಲ್ಲಿ ಬೆಂಚ್‌ಮಾರ್ಕ್ ನಾಯಕನಾಗಿದ್ದು, ಬೃಹತ್ ಪ್ರಮಾಣದ Go ಕೋಡ್‌ಬೇಸ್‌ಗಳನ್ನು ಮರು-ಅನುಷ್ಠಾನಗೊಳಿಸುವಲ್ಲಿ ಅತ್ಯುನ್ನತ ಸಾಮರ್ಥ್ಯವನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತಿದೆ.
ಸಂಕೀರ್ಣತೆಯ ಅಡೆತಡೆಗಳು ಇಂದಿಗೂ ಇವೆ: ಸಣ್ಣ ಪ್ರಮಾಣದ ಕಾರ್ಯಗಳನ್ನು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಪರಿಹರಿಸಲಾಗುತ್ತಿದ್ದರೂ, ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಯಾವುದೇ ಮಾದರಿಯು ಅತ್ಯಂತ ಸಂಕೀರ್ಣವಾದ, ಬೃಹತ್ ಪ್ರಮಾಣದ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಕಾರ್ಯಗಳನ್ನು ಇನ್ನೂ ಸಂಪೂರ್ಣವಾಗಿ ಪೂರ್ಣಗೊಳಿಸಲು ಸಾಧ್ಯವಾಗಿಲ್ಲ.

ಹೊಸ MirrorCode ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿ AI ಮಾದರಿಗಳು 19 ದಿನಗಳ ಕಾಲ ನಿರಂತರವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿವೆ

ಹೊಸ MirrorCode ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿ AI ಮಾದರಿಗಳು 19 ದಿನಗಳ ಕಾಲ ನಿರಂತರವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿವೆ

MirrorCode ಮೂಲಕ AI ಗೆ ಸವಾಲು

Claude Opus 4.7 ಸ್ಪರ್ಧೆಯಲ್ಲಿ ಮುಂಚೂಣಿಯಲ್ಲಿ

ಸಂಕೀರ್ಣತೆಯ ಅಂತರ ಮತ್ತು ನೆನಪಿಸಿಕೊಳ್ಳುವಿಕೆಯ (Memorization) ಅಪಾಯಗಳು

ಇದು AI ಉದ್ಯಮಕ್ಕೆ ಏಕೆ ಮುಖ್ಯ

ಪ್ರಮುಖ ಅಂಶಗಳು

Continue reading

ಹೊಸ AA ಬ್ರೀಫ್‌ಕೇಸ್ ಬೆಂಚ್‌ಮಾರ್ಕ್ ನೈಜ ಜ್ಞಾನದ ಕೆಲಸದಲ್ಲಿ AI ಎದುರಿಸುತ್ತಿರುವ ಸವಾಲನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ

Snowflake CEO: GLM 5.2 Rivals Claude Opus 4.7 at a Fraction of the Cost

AI ವೆಚ್ಚದಲ್ಲಿ ಲಕ್ಷಾಂತರ ಉಳಿಸಲು Lindy, Claude ಬದಲಿಗೆ DeepSeek ಅನ್ನು ಬಳಸುತ್ತಿದೆ

Only Three AI Models Survived the 500 Day Startup Simulation

Claude Sonnet 5: ಹೆಚ್ಚಿನ ಕಾರ್ಯಕ್ಷಮತೆಯು ಗಮನಾರ್ಹ ಬೆಲೆ ಏರಿಕೆಯನ್ನು ಮರೆಮಾಚುತ್ತಿದೆ