ಕೇವಲ ಮೂರು AI ಮಾದರಿಗಳು ಮಾತ್ರ 500-ದಿನಗಳ ಸ್ಟಾರ್ಟ್ಅಪ್ ಸಿಮ್ಯುಲೇಶನ್ನಲ್ಲಿ ಬದುಕುಳಿದವು
ಪ್ರಸ್ತುತ AI ಏಜೆಂಟ್ಗಳು ಪ್ರತ್ಯೇಕ ಕಾರ್ಯಗಳಲ್ಲಿ (discrete tasks) ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡುತ್ತವೆ, ಆದರೆ ವ್ಯವಹಾರವನ್ನು ನಡೆಸಲು ಅಗತ್ಯವಿರುವ ಸಂಕೀರ್ಣವಾದ ಮತ್ತು ದೀರ್ಘಾವಧಿಯ ಕಾರ್ಯತಂತ್ರದ ಆಲೋಚನೆಯಲ್ಲಿ ಅವು ಕಷ್ಟಪಡುತ್ತವೆ. CEO-Bench ಎಂಬ ಹೊಸ ಬೆಂಚ್ಮಾರ್ಕ್ ಪ್ರಕಾರ, ಹೆಚ್ಚಿನ ಲಾರ್ಜ್ ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾಡೆಲ್ಗಳು (LLMs) 500 ಸಿಮ್ಯುಲೇಟೆಡ್ ದಿನಗಳ ಒಳಗೆ ದಿವಾಳಿಯಾಗುತ್ತವೆ, ಆದರೆ ಕೆಲವು ಆಯ್ದ ಮಾದರಿಗಳು "ಸ್ಟೀರಿಂಗ್ ಇಂಟೆಲಿಜೆನ್ಸ್" (steering intelligence) ನ ಲಕ್ಷಣಗಳನ್ನು ತೋರಿಸಲು ಪ್ರಾರಂಭಿಸಿವೆ.
CEO-Bench ಪರಿಚಯ: ಕಾರ್ಯತಂತ್ರದ ಬುದ್ಧಿವಂತಿಕೆಯ ಅಂತಿಮ ಪರೀಕ್ಷೆ
ಸಂಶೋಧಕರು ಕೇವಲ ಸರಳ ಪ್ರಾಂಪ್ಟಿಂಗ್ ಪರೀಕ್ಷೆಗಳನ್ನು ಮೀರಿ CEO-Bench ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿದ್ದಾರೆ. ಇದು ಇಡೀ ಸಂಸ್ಥೆಯನ್ನು ದೀರ್ಘಾವಧಿಯ ಗುರಿಗಳತ್ತ ಮುನ್ನಡೆಸುವ ಏಜೆಂಟ್ನ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಕಠಿಣ ಸಿಮ್ಯುಲೇಶನ್ ಆಗಿದೆ. ಈ ಬೆಂಚ್ಮಾರ್ಕ್ನಲ್ಲಿ, ಒಂದು AI ಏಜೆಂಟ್ $1 ಮಿಲಿಯನ್ ಬಂಡವಾಳ ಮತ್ತು ಶೂನ್ಯ ಗ್ರಾಹಕರೊಂದಿಗೆ ಪ್ರಾರಂಭವಾಗುವ "NovaMind" ಎಂಬ ಕಾಲ್ಪನಿಕ ಸಬ್ಸ್ಕ್ರಿಪ್ಷನ್ ಸಾಫ್ಟ್ವೇರ್ ಕಂಪನಿಯ ನಿಯಂತ್ರಣವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ.
ಈ ಪರಿಸರವು ನೈಜ ಪ್ರಪಂಚದ ಅಸ್ಥಿರತೆಯನ್ನು ಅನುಕರಿಸುವಂತೆ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ಏಜೆಂಟ್ಗಳು 34 ಪರಿಕರಗಳನ್ನು ಹೊಂದಿರುವ Python API ಮತ್ತು 19-ಟೇಬಲ್ ಡೇಟಾಬೇಸ್ನೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸುತ್ತವೆ, ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಲು ಅವುಗಳು ಕಸ್ಟಮ್ ಕೋಡ್ ಮತ್ತು SQL ಕ್ವೇರಿಗಳನ್ನು ಬರೆಯಬೇಕಾಗುತ್ತದೆ. ಇಲ್ಲಿ ಪಣ ದೊಡ್ಡದಿದೆ: 500 ದಿನಗಳ ಅವಧಿಯಲ್ಲಿ ಯಾವುದೇ ಹಂತದಲ್ಲಿ ಕಂಪನಿಯ ನಗದು ಬಾಕಿ ಶೂನ್ಯಕ್ಕಿಂತ ಕೆಳಗೆ ಇಳಿದರೆ, ಸಿಮ್ಯುಲೇಶನ್ ದಿವಾಳಿತನದಲ್ಲಿ ಕೊನೆಗೊಳ್ಳುತ್ತದೆ.
ವಿಳಂಬಿತ ಫೀಡ್ಬ್ಯಾಕ್ ಲೂಪ್ಗಳಿಂದ (delayed feedback loops) ಸಂಕೀರ್ಣತೆ ಉಂಟಾಗುತ್ತದೆ. ಕಾರ್ಯ-ಆಧಾರಿತ ಏಜೆಂಟ್ಗಳಿಗಿಂತ ಭಿನ್ನವಾಗಿ, ಒಬ್ಬ CEO ಸಂಶೋಧನೆ ಮತ್ತು ಅಭಿವೃದ್ಧಿ (R&D) ಕಾಲಮಿತಿಗಳು, ಮಾರುಕಟ್ಟೆ ಚಕ್ರಗಳು ಮತ್ತು ಬದಲಾಗುತ್ತಿರುವ ಗ್ರಾಹಕರ ನಿರೀಕ್ಷೆಗಳನ್ನು ನಿಭಾಯಿಸಬೇಕಾಗುತ್ತದೆ. 10ನೇ ದಿನದಲ್ಲಿ ತೆಗೆದುಕೊಳ್ಳುವ ನಿರ್ಧಾರಗಳು—ಉದಾಹರಣೆಗೆ ಜಾಹೀರಾತು ವೆಚ್ಚ ಅಥವಾ ಬೆಲೆ ವಿಧಗಳು (pricing tiers)—ಗ್ರಾಹಕರ ಬೆಳವಣಿಗೆ ಅಥವಾ ನಗದು ಹರಿವಿನಲ್ಲಿ ವಾರಗಳ ನಂತರವೇ ದೃಶ್ಯ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡಬಹುದು.
ದಿವಾಳಿತನದ ಬಿಕ್ಕಟ್ಟು: ಹೆಚ್ಚಿನ ಮಾದರಿಗಳು ಏಕೆ ವಿಫಲವಾಗುತ್ತವೆ
14 ಮಾದರಿಗಳ ಪರೀಕ್ಷೆಯ ಫಲಿತಾಂಶಗಳು ಕಳವಳಕಾರಿಯಾಗಿದ್ದವು. ಹೆಚ್ಚಿನ ಮಾದರಿಗಳು ಮೂಲಭೂತ ಆದೇಶಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಬಲ್ಲವು, ಆದರೆ ಅವುಗಳಿಗೆ ಆರ್ಥಿಕ ಸ್ಥಿರತೆಯನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಲು ಅಗತ್ಯವಿರುವ ಸುಸಂಬದ್ಧ ದೀರ್ಘಾವಧಿಯ ಕಾರ್ಯತಂತ್ರದ ಕೊರತೆಯಿತ್ತು. ಹೆಚ್ಚಿನ ಏಜೆಂಟ್ಗಳು ಮಾರುಕಟ್ಟೆಯ ಅನಿಶ್ಚಿತತೆಯನ್ನು ನಿಭಾಯಿಸಲು ವಿಫಲವಾದವು ಮತ್ತು 500 ದಿನಗಳ ಮುನ್ನವೇ ದಿವಾಳಿಯಾದವು.
ಒಂದು ಗಮನಾರ್ಹ ಹೋಲಿಕೆಯಲ್ಲಿ, ಒಂದು ಸರಳ ನಿಯಮ-ಆಧಾರಿತ ಹ್ಯೂರಿಸ್ಟಿಕ್ (rule-based heuristic)—ಸ್ಥಿರ ಬೆಲೆ ಮತ್ತು ಮೂಲಭೂತ ಸಾಮರ್ಥ್ಯ ಹೊಂದಾಣಿಕೆಗಳನ್ನು ಬಳಸುವ AI ಅಲ್ಲದ ಪ್ರೋಗ್ರಾಂ—$15.76 ಮಿಲಿಯನ್ ತಲುಪಿತು. ಇದು ಪರೀಕ್ಷಿಸಲಾದ ಬಹುತೇಕ ಎಲ್ಲಾ LLM ಗಳಿಗಿಂತ ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡಿತು, ಇದು "ದಿಕ್ಕು ಇಲ್ಲದ ಬುದ್ಧಿವಂತಿಕೆ"ಯು ಮೂಲಭೂತ ಮತ್ತು ಶಿಸ್ತುಬದ್ಧ ವ್ಯವಹಾರ ಯೋಜನೆಯಿಗಿಂತ ಕೀಳಾಗಿರುತ್ತದೆ ಎಂಬುದನ್ನು ಸಾಬೀತುಪಡಿಸಿತು.
ಎಲೈಟ್ ಮೂವರು: Claude ಮತ್ತು GPT ಮುಂಚೂಣಿಯಲ್ಲಿವೆ
ಕೇವಲ ಮೂರು ಮಾದರಿಗಳು ಪ್ರಾರಂಭದ $1 ಮಿಲಿಯನ್ ಬಂಡವಾಳಕ್ಕಿಂತ ಹೆಚ್ಚಿನದೊಂದಿಗೆ ತಮ್ಮ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ಸಾಧ್ಯವಾಯಿತು. ಈ ಮಾದರಿಗಳು ಗುಪ್ತ ಮಾಹಿತಿಯನ್ನು ಪತ್ತೆಹಚ್ಚುವ ಮತ್ತು ಭವಿಷ್ಯದ ನಗದು ಹರಿವನ್ನು ಮುನ್ಸೂಚಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಪ್ರದರ್ಶಿಸಿದವು:
- Claude Fable 5: ಅತ್ಯುತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡಿದ ಮಾದರಿ, ಇದು ಬೆರಗುಗೊಳಿಸುವ $47.15 ಮಿಲಿಯನ್ ತಲುಪಿತು ಮತ್ತು ಹಲವಾರು ಬಾರಿ ನಡೆಸಿದ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಅತ್ಯಂತ ಸ್ಥಿರತೆಯನ್ನು ತೋರಿಸಿತು.
- Claude Opus 4.8: $27.8 ಮಿಲಿಯನ್ ಸಾಧಿಸಿತು, ಗ್ರಾಹಕರ ಗುಂಪುಗಳನ್ನು (customer cohorts) ಮಾದರಿಯಾಗಿ ಮಾಡಲು ತನ್ನದೇ ಆದ ಆಂತರಿಕ ಸಿಮ್ಯುಲೇಶನ್ ಅನ್ನು ನಿರ್ಮಿಸುವ ಮೂಲಕ ಉನ್ನತ ಮಟ್ಟದ ಸಂಕೀರ್ಣತೆಯನ್ನು ಪ್ರದರ್ಶಿಸಿತು.
- GPT-5.5: $21.3 ಮಿಲಿಯನ್ ತಲುಪಿತು, ಗ್ರಾಹಕರ ಗುಪ್ತ ಆದ್ಯತೆಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಮಾತುಕತೆಯ ಇತಿಹಾಸವನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಮೂಲಕ ಯಶಸ್ವಿಯಾಯಿತು.
ಆಸಕ್ತಿದಾಯಕ ವಿಷಯವೆಂದರೆ, ಈ ಮಾದರಿಗಳು ಯಶಸ್ಸಿನತ್ತ ವಿಭಿನ್ನ ಹಾದಿಗಳನ್ನು ಬಳಸಿದವು. Opus 4.8 ಆರಂಭಿಕ ಹಂತದಲ್ಲಿ ಆಕ್ರಮಣಕಾರಿಯಾಗಿ ಗ್ರಾಹಕರನ್ನು ಪಡೆಯುವತ್ತ ಗಮನಹರಿಸಿದರೆ, GPT-5.5 ಸ್ಥಿರವಾದ ಗ್ರಾಹಕ基 (customer base) ಅನ್ನು ಕಾಯ್ದುಕೊಳ್ಳಲು ಆದ್ಯತೆ ನೀಡಿತು. ಇದಕ್ಕೆ ವ್ಯತಿರಿಕ್ತವಾಗಿ, Claude Opus 4.7 ನಂತಹ ಮಾದರಿಗಳು "survivalist" ಮನೋಭಾವವನ್ನು ಅಳವಡಿಸಿಕೊಂಡವು, ಅಂದರೆ ಯಾವುದೇ ಗಮನಾರ್ಹ ಲಾಭವನ್ನು ಗಳಿಸದೆ ಕೇವಲ ದಿವಾಳಿತನವನ್ನು ತಪ್ಪಿಸಲು ವೆಚ್ಚವನ್ನು ಕಡಿತಗೊಳಿಸಿದವು.
ಇದು AI ನ ಭವಿಷ್ಯಕ್ಕೆ ಏಕೆ ಮುಖ್ಯ
ಅತ್ಯುತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡುವ ಏಜೆಂಟ್ಗಳು ($47.15M) ಮತ್ತು ಸಿಮ್ಯುಲೇಶನ್ನ ಸೈದ್ಧಾಂತಿಕ ಗರಿಷ್ಠ ಮಿತಿ ($2.2B) ನಡುವಿನ ಅಂತರವು AI "ಸ್ಟೀರಿಂಗ್ ಇಂಟೆಲಿಜೆನ್ಸ್" ಇನ್ನೂ ಆರಂಭಿಕ ಹಂತದಲ್ಲಿದೆ ಎಂದು ಸೂಚಿಸುತ್ತದೆ. ಡೆವಲಪರ್ಗಳು ಮತ್ತು ಸಂಸ್ಥಾಪಕರಿಗೆ, AI ನ ಮುಂದಿನ ಮೈಲಿಗಲ್ಲು ಕೇವಲ ಉತ್ತಮ ತರ್ಕ (reasoning) ಮಾತ್ರವಲ್ಲ, ಬದಲಾಗಿ ಉತ್ತಮ ಸಮಯದ ಅರಿವು (temporal awareness)—ಅಂದರೆ ದೀರ್ಘಕಾಲದ ಅನಿಶ್ಚಿತ ಅವಧಿಗಳಲ್ಲಿ ಸಂಪನ್ಮೂಲಗಳು ಮತ್ತು ನಿರೀಕ್ಷೆಗಳನ್ನು ನಿರ್ವಹಿಸುವ ಸಾಮರ್ಥ್ಯ ಎಂಬುದನ್ನು ಈ ಬೆಂಚ್ಮಾರ್ಕ್ ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ.
ಪ್ರಮುಖ ಅಂಶಗಳು
- ಕಾರ್ಯತಂತ್ರದ ಅಂತರ (Strategic Gap): ಹೆಚ್ಚಿನ ಪ್ರಸ್ತುತ AI ಮಾದರಿಗಳು ದೀರ್ಘಾವಧಿಯ ವ್ಯವಹಾರ ಚಕ್ರಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಅಗತ್ಯವಿರುವ "ಸ್ಟೀರಿಂಗ್ ಇಂಟೆಲಿಜೆನ್ಸ್" ಅನ್ನು ಹೊಂದಿಲ್ಲ, ಹೆಚ್ಚಿನವುಗಳು 500-ದಿನಗಳ ಬದುಕುಳಿಯುವ ಪರೀಕ್ಷೆಯಲ್ಲಿ ವಿಫಲವಾಗಿವೆ.
- ಅತ್ಯುತ್ತಮ ಪ್ರದರ್ಶಕರು: ಕೇವಲ Claude Fable 5, Claude Opus 4.8 ಮತ್ತು GPT-5.5 ಕಂಪನಿಯ ಬಂಡವಾಳವನ್ನು ಪ್ರಾರಂಭದ $1 ಮಿಲಿಯನ್ ಗಿಂತ ಹೆಚ್ಚುವರಿಯಾಗಿ ಯಶಸ್ವಿಯಾಗಿ ಬೆಳೆಸಿದವು.
- ಹ್ಯೂರಿಸ್ಟಿಕ್ ಬೆಂಚ್ಮಾರ್ಕ್: ಒಂದು ಸರಳ, AI ಅಲ್ಲದ ನಿಯಮ-ಆಧಾರಿತ ಅಲ್ಗಾರಿದಮ್ ಬಹುತೇಕ ಎಲ್ಲಾ LLM ಗಳಿಗಿಂತ ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡಿತು, ಇದು ಕೇವಲ ಸಂಸ್ಕರಣಾ ಸಾಮರ್ಥ್ಯಕ್ಕಿಂತ (raw processing power) ಕಾರ್ಯತಂತ್ರದ ಸ್ಥಿರತೆ ಹೆಚ್ಚು ಮುಖ್ಯ ಎಂಬುದನ್ನು ಒತ್ತಿಹೇಳುತ್ತದೆ.
