Claude Mythos ಅನ್ನು ಸವಾಲು ಮಾಡಲು OpenAI ತನ್ನ GPT-5.6 Sol ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ
ಏಜೆಂಟಿಕ್ ಕೋಡಿಂಗ್ (agentic coding) ಮತ್ತು ಸೈಬರ್ ಸೆಕ್ಯೂರಿಟಿ ವಲಯಗಳಲ್ಲಿ ಪ್ರಾಬಲ್ಯ ಸಾಧಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಅತ್ಯಾಧುನಿಕ ಹೊಸ ಮಾಡೆಲ್ ತಲೆಮಾರಿನ GPT-5.6 Sol ಅನ್ನು OpenAI ಅಧಿಕೃತವಾಗಿ ಅನಾವರಣಗೊಳಿಸಿದೆ. ಈ ಬಿಡುಗಡೆಯು ತಾರ್ಕಿಕ ಸಾಮರ್ಥ್ಯಗಳಲ್ಲಿ (reasoning capabilities) ಗಮನಾರ್ಹ ಪ್ರಗತಿಯನ್ನು ಸೂಚಿಸಿದರೂ, ಅಮೆರಿಕ ಸರ್ಕಾರದ ನಿರ್ಬಂಧಿತ ಪ್ರವೇಶ ಪ್ರೋಟೋಕಾಲ್ಗಳ ಕುರಿತಾದ ವಿವಾದದ ನಡುವೆ ಇದು ಬಂದಿದೆ.
ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ವ್ಯಾಪ್ತಿಗಾಗಿ ಹೊಸ ಹಂತದ ಆರ್ಕಿಟೆಕ್ಚರ್ (Tiered Architecture)
ಏಕೈಕ ಮಾಡೆಲ್ ಬಿಡುಗಡೆಗಳ ಬದಲಿಗೆ, ವೈವಿಧ್ಯಮಯ ಎಂಟರ್ಪ್ರೈಸ್ ಅಗತ್ಯಗಳಿಗಾಗಿ ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಪದರಗಳ ಹೆಸರಿಸುವ ಪದ್ಧತಿಯನ್ನು (layered naming scheme) OpenAI ಪರಿಚಯಿಸಿದೆ. ಈ ಆರ್ಕಿಟೆಕ್ಚರ್ "Sol," "Terra," ಮತ್ತು "Luna" ಅನ್ನು ಕಾಯಂ ಕಾರ್ಯಕ್ಷಮತೆಯ ಹಂತಗಳಾಗಿ ಬಳಸುತ್ತದೆ, ಇದು ಅಭಿವೃದ್ಧಿಪಡಿಸುವವರು (developers) ತಮ್ಮ ಬಜೆಟ್ ಮತ್ತು ಸಂಕೀರ್ಣತೆಗೆ ಅನುಗುಣವಾಗಿ ಇದನ್ನು ಬಳಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.
ಶ್ರೇಣಿಯ ಉನ್ನತ ಮಟ್ಟದಲ್ಲಿ ಫ್ಲ್ಯಾಗ್ಶಿಪ್ ಮಾಡೆಲ್ ಆದ Sol ಇದೆ. ಅದರ ಕೆಳಗೆ Terra ಇದೆ, ಇದು ಸುಮಾರು ಅರ್ಧದಷ್ಟು ವೆಚ್ಚದಲ್ಲಿ GPT-5.5 ನ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ನೀಡುತ್ತದೆ, ಮತ್ತು Luna ಎಂಬುದು ಬಜೆಟ್ ಸ್ನೇಹಿ ಹಂತವಾಗಿದೆ. ಹೆಚ್ಚಿನ ತೀವ್ರತೆಯ ಕೆಲಸಗಳಿಗಾಗಿ (high-intensity workloads), OpenAI ಆಳವಾದ ತಾರ್ಕಿಕತೆಗಾಗಿ "max" ಮೋಡ್ ಮತ್ತು ಬಹುಮುಖಿ, ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳನ್ನು ನಿಭಾಯಿಸಲು ಸಮಾಂತರವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಸಬ್-ಏಜೆಂಟ್ಗಳನ್ನು ಬಳಸುವ "ultra" ಮೋಡ್ ಅನ್ನು ಪರಿಚಯಿಸಿದೆ.
ಕೋಡಿಂಗ್ ಮತ್ತು ಜೀವವಿಜ್ಞಾನದಲ್ಲಿ ಹೊಸ ಮಾನದಂಡಗಳ ಸ್ಥಾಪನೆ
GPT-5.6 Sol ನ ಪ್ರಾಥಮಿಕ ಉದ್ದೇಶ Anthropic ನ Claude Mythos ವರ್ಗವನ್ನು ಹಿಂದಿಕ್ಕುವುದಾಗಿದೆ. ಏಜೆಂಟಿಕ್ ಕೋಡಿಂಗ್ ಕಾರ್ಯಗಳಲ್ಲಿ, ಅಂಕಿಅಂಶಗಳು OpenAI ನ ಹೇಳಿಕೆಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತವೆ: Terminal-Bench 2.1 ಮಾನದಂಡದಲ್ಲಿ (benchmark), Sol Ultra 91.9% ರಷ್ಟು ಅದ್ಭುತ ಸಾಧನೆ ಮಾಡಿದೆ, ಇದು Claude Mythos 5 (88.0%) ಮತ್ತು Google ನ Gemini 3.1 Pro Preview (70.7%) ಅನ್ನು ಮೀರಿಸಿದೆ.
ಈ ಮಾಡೆಲ್ ವಿಶೇಷ ವಿಜ್ಞಾನಗಳಲ್ಲೂ ಗಮನಾರ್ಹ ಪ್ರಗತಿಯನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ. GeneBench v1 genomics ಮಾನದಂಡದಲ್ಲಿ, Sol 30% ಅಂಕಗಳನ್ನು ಗಳಿಸಿದೆ, ಇದು GPT-5.5 ಸಾಧಿಸಿದ 22% ಕ್ಕಿಂತ ಗಣನೀಯ ಹೆಚ್ಚಳವಾಗಿದೆ, ವಿಶೇಷವಾಗಿ ಇದು ಕಡಿಮೆ ಟೋಕನ್ಗಳನ್ನು ಬಳಸಿಕೊಂಡಿದೆ. ಈ ದಕ್ಷತೆಯು OpenAI ಕೇವಲ "ದೊಡ್ಡ" ಕಂಪ್ಯೂಟ್ (larger compute) ಬದಲಿಗೆ "ಸ್ಮಾರ್ಟ್" ಕಂಪ್ಯೂಟ್ (smarter compute) ಮೇಲೆ ಗಮನ ಹರಿಸುತ್ತಿದೆ ಎಂಬುದನ್ನು ಸೂಚಿಸುತ್ತದೆ.
ಸೈಬರ್ ಸೆಕ್ಯೂರಿಟಿ: ರಕ್ಷಕ ವರ್ಸಸ್ ದಾಳಿಕಾರ
ಸೈಬರ್ ಸೆಕ್ಯೂರಿಟಿ ಕ್ಷೇತ್ರದಲ್ಲಿ, Sol ಒಂದು ಪ್ರಮುಖ ರಕ್ಷಣಾತ್ಮಕ ಸಾಧನವಾಗುವ ಗುರಿಯನ್ನು ಹೊಂದಿದೆ. ExploitBench ನಲ್ಲಿ—ಇದು Google V8 JavaScript ಇಂಜಿನ್ನಲ್ಲಿನ ದೋಷಗಳನ್ನು (vulnerabilities) ಕಂಡುಹಿಡಿಯುವ ಮತ್ತು ಬಳಸಿಕೊಳ್ಳುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಪರೀಕ್ಷಿಸುತ್ತದೆ—Sol, Anthropic ನ Mythos Preview ನ ಕಾರ್ಯಕ್ಷಮತೆಗೆ ಸಮಾನವಾಗಿದೆ, ಆದರೆ ಒಂದು ಪ್ರಮುಖ ಅನುಕೂಲವಿದೆ: ಇದು ಸುಮಾರು ಮೂರನೇ ಒಂದು ಭಾಗದಷ್ಟು ಔಟ್ಪುಟ್ ಟೋಕನ್ಗಳನ್ನು ಬಳಸುತ್ತದೆ.
OpenAI Sol ಅನ್ನು ಸ್ವಾಯತ್ತ ದಾಳಿಕಾರನಾಗಿ (autonomous attacker) ನೋಡುವ ಬದಲು ರಕ್ಷಕನನ್ನಾಗಿ (defender) ರೂಪಿಸುತ್ತಿದೆ. Chromium ಮತ್ತು Firefox ಒಳಗೊಂಡಿರುವ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ, ಮಾಡೆಲ್ ಬಗ್ಗಳನ್ನು ಮತ್ತು ಎಕ್ಸ್ಪ್ಲಾಯ್ಟೇಶನ್ ಪ್ರಿಮಿತಿವ್ಗಳನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಗುರುತಿಸಿತು, ಆದರೆ ಸ್ವಾಯತ್ತವಾದ, ಪೂರ್ಣ-ಚೈನ್ ಎಕ್ಸ್ಪ್ಲಾಯ್ಟ ಅನ್ನು ತಯಾರಿಸುವುದನ್ನು ಮಾಡಲಿಲ್ಲ. Sol ತನ್ನ ಆಂತರಿಕ Preparedness Framework ಒಳಗೆ "Cyber Critical" ಮಿತಿಗಿಂತ ಕೆಳಗಿದೆ ಎಂದು OpenAI ಹೇಳುತ್ತದೆ.
ಸರ್ಕಾರ ನಿಯಂತ್ರಿತ ಪ್ರವೇಶದ ಕುರಿತಾದ ವಿವಾದ
GPT-5.6 Sol ನ ಬಿಡುಗಡೆಯು ಘರ್ಷಣೆಗಳಿಲ್ಲದೆ ನಡೆದಿಲ್ಲ. ಪ್ರಸ್ತುತ, ಅಮೆರಿಕ ಸರ್ಕಾರವು ವಿಧಿಸಿದ ನಿರ್ಬಂಧದಂತೆ, API ಮತ್ತು Codex ಮೂಲಕ ಕೇವಲ ಕೆಲವು ಆಯ್ದ ಪಾಲುದಾರರಿಗೆ ಮಾತ್ರ ಪ್ರವೇಶವನ್ನು ಸೀಮಿತಗೊಳಿಸಲಾಗಿದೆ. ಇದು Anthropic ನ Fable 5 ಅನ್ನು ಮಾರುಕಟ್ಟೆಯಿಂದ ತೆಗೆದುಹಾಕಲು ಸರ್ಕಾರ ತೆಗೆದುಕೊಂಡ ಹಿಂದಿನ ನಿರ್ಧಾರದ ನಂತರ ನಡೆದಿದೆ.
OpenAI ಈ ಮಿತಿಗಳಿಗೆ ಬಲವಾದ ವಿರೋಧ ವ್ಯಕ್ತಪಡಿಸಿದ್ದು, ಪ್ರಸ್ತುತ ಸರ್ಕಾರದ ಪ್ರವೇಶ ಪ್ರಕ್ರಿಯೆಯನ್ನು "ಅಸ್ಥಿರ" (unsustainable) ಎಂದು ಕರೆದಿದೆ. ಇಂತಹ ನಿರ್ಬಂಧಗಳು ಅಭಿವೃದ್ಧಿಪಡಿಸುವವರು, ಎಂಟರ್ಪ್ರೈಸ್ಗಳು ಮತ್ತು ಸೈಬರ್ ರಕ್ಷಕರು ಜಾಗತಿಕ ಡಿಜಿಟಲ್ ಮೂಲಸೌಕರ್ಯವನ್ನು ಸುರಕ್ಷಿತಗೊಳಿಸಲು ಅಗತ್ಯವಿರುವ ಪರಿಕರಗಳನ್ನು ಪಡೆಯದಂತೆ ತಡೆಯುತ್ತವೆ ಎಂದು ಕಂಪನಿಯು ವಾದಿಸುತ್ತದೆ.
ಪ್ರಮುಖ ಅಂಶಗಳು
- ಹಂತದ ಮಾಡೆಲ್ ತಂತ್ರ (Tiered Model Strategy): OpenAI ಹೊಸ ಶ್ರೇಣಿಯನ್ನು ಪರಿಚಯಿಸಿದೆ—Sol (ಫ್ಲ್ಯಾಗ್ಶಿಪ್), Terra (ಮಧ್ಯಮ ಹಂತ), ಮತ್ತು Luna (ಬಜೆಟ್)—ಇದರೊಂದಿಗೆ ಸಮಾಂತರ ಸಬ್-ಏಜೆಂಟ್ ಕಾರ್ಯ ನಿರ್ವಹಣೆಗಾಗಿ "Ultra" ಮೋಡ್ ಕೂಡ ಇದೆ.
- ಮಾನದಂಡದಲ್ಲಿ ಪ್ರಾಬಲ್ಯ (Benchmark Dominance): GPT-5.6 Sol Ultra, Terminal-Bench 2.1 ರಲ್ಲಿ 91.9% ಸಾಧನೆಯೊಂದಿಗೆ ಏಜೆಂಟಿಕ್ ಕೋಡಿಂಗ್ನಲ್ಲಿ ಉದ್ಯಮವನ್ನು ಮುನ್ನಡೆಸುತ್ತಿದೆ, ಇದು Claude Mythos ಮತ್ತು Gemini ಅನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಹಿಂದಿಕ್ಕುತ್ತದೆ.
- ದಕ್ಷತೆಗೆ ಆದ್ಯತೆ ನೀಡುವ ವಿಧಾನ (Efficiency-First Approach): Sol ಅತ್ಯಂತ ಕಡಿಮೆ ಟೋಕನ್ಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳುತ್ತಲೇ ಸ್ಪರ್ಧಾತ್ಮಕ ಸೈಬರ್ ಸೆಕ್ಯೂರಿಟಿ ಮತ್ತು ಜೀನೋಮಿಕ್ಸ್ ಫಲಿತಾಂಶಗಳನ್ನು ಸಾಧಿಸುತ್ತದೆ, ಇದು ಅಭಿವೃದ್ಧಿಪಡಿಸುವವರಿಗೆ ಪ್ರತಿ ಕಾರ್ಯದ ಪರಿಣಾಮಕಾರಿ ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡುವ ಸಾಧ್ಯತೆಯನ್ನು ಹೊಂದಿದೆ.
