Anthropic Claude Sonnet 5 ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ: ಏಜೆಂಟಿಕ್ AI ನ ಹೊಸ ಮೈಲಿಗಲ್ಲು
Anthropic ಅಧಿಕೃತವಾಗಿ Claude Sonnet 5 ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ. ಇದು ಮಧ್ಯಮ ಶ್ರೇಣಿ (mid-tier) ಮತ್ತು ಫ್ಲ್ಯಾಗ್ಶಿಪ್ (flagship) AI ಸರಣಿಗಳ ನಡುವಿನ ಕಾರ್ಯಕ್ಷಮತೆಯ ಅಂತರವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಶಕ್ತಿಯುತ ಮಾಡೆಲ್ ಆಗಿದೆ. ಏಜೆಂಟಿಕ್ ಸಾಮರ್ಥ್ಯಗಳಿಗೆ—ಅಂದರೆ ಪರಿಕರಗಳನ್ನು (tools) ಬಳಸುವುದು, ಬ್ರೌಸ್ ಮಾಡುವುದು ಮತ್ತು ಸಂಕೀರ್ಣ ಯೋಜನೆಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವ ಸಾಮರ್ಥ್ಯಕ್ಕೆ—ಆದ್ಯತೆ ನೀಡುವ ಮೂಲಕ, ಈ ಬಿಡುಗಡೆಯು ಸ್ವಾಯತ್ತ AI ವರ್ಕ್ಫ್ಲೋಗಳ (autonomous AI workflows) ಕಡೆಗೆ ಬದಲಾವಣೆಯನ್ನು ಸೂಚಿಸುತ್ತದೆ.
Opus ಸರಣಿಯೊಂದಿಗೆ ಅಂತರವನ್ನು ಕಡಿಮೆ ಮಾಡುವುದು
Sonnet 5 ನ ಅತ್ಯಂತ ಗಮನಾರ್ಹ ಅಂಶವೆಂದರೆ, ಇದು ಹೆಚ್ಚು ದೊಡ್ಡದಾದ ಮತ್ತು ದುಬಾರಿಯಾದ Opus 4.8 ರ ಕಾರ್ಯಕ್ಷಮತೆಗೆ ಎಷ್ಟು ಹತ್ತಿರದಲ್ಲಿದೆ ಎಂಬುದು. ಕ್ರಾಂತಿಕಾರಿ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳಲ್ಲಿ, "ಮಧ್ಯಮ ಗಾತ್ರದ" ಮಾಡೆಲ್ಗಳು ಈ ಮೊದಲು ಕೇವಲ ಅತ್ಯಾಧುನಿಕ (frontier-class) ಬುದ್ಧಿವಂತಿಕೆಗಾಗಿ ಮೀಸಲಾದ ಕಾರ್ಯಗಳನ್ನು ಈಗ ನಿಭಾಯಿಸಬಲ್ಲವು ಎಂದು Sonnet 5 ಸಾಬೀತುಪಡಿಸಿದೆ.
ಬಹುಶಿಸ್ತೀಯ ತಾರ್ಕಿಕತೆಯ ಬೆಂಚ್ಮಾರ್ಕ್ ಆದ Humanity's Last Exam ನಲ್ಲಿ, Sonnet 5 ಪರಿಕರಗಳನ್ನು ಬಳಸಿಕೊಂಡು 57.4% ಅಂಕವನ್ನು ಗಳಿಸಿದ್ದು, ಇದು Opus 4.8 ರ 57.9% ಅಂಕಕ್ಕೆ ಬಹುತೇಕ ಸಮನಾಗಿದೆ. ಅತ್ಯಂತ ಆಕರ್ಷಕವಾಗಿ, ನೈಜ ಪ್ರಪಂಚದ ಜ್ಞಾನದ ಕಾರ್ಯದ ಬೆಂಚ್ಮಾರ್ಕ್ ಆದ GDPval-AA v2 ನಲ್ಲಿ, Sonnet 5 ವಾಸ್ತವವಾಗಿ Opus 4.8 ಅನ್ನು ಹಿಂದಿಕ್ಕಿದ್ದು, ಫ್ಲ್ಯಾಗ್ಶಿಪ್ ಮಾಡೆಲ್ನ 1,615 ಅಂಕಗಳ ವಿರುದ್ಧ 1,618 ಅಂಕಗಳನ್ನು ಗಳಿಸಿದೆ. ಇದು ನಿರ್ದಿಷ್ಟ ಜ್ಞಾನ-ಭರಿತ ವರ್ಕ್ಫ್ಲೋಗಳಿಗೆ, Opus ಸರಣಿಯ ಬೃಹತ್ ಗಾತ್ರಕ್ಕಿಂತ Sonnet 5 ನ ದಕ್ಷತೆಯೇ ಹೆಚ್ಚು ಪ್ರಯೋಜನಕಾರಿಯಾಗಬಹುದು ಎಂದು ಸೂಚಿಸುತ್ತದೆ.
ಏಜೆಂಟಿಕ್ ಕಾರ್ಯಕ್ಷಮತೆಯಲ್ಲಿ ದೊಡ್ಡ ಜಿಗಿತ
Anthropic ತನ್ನ ಇಂದಿನವರೆಗಿನ ಅತ್ಯಂತ "ಏಜೆಂಟಿಕ್" ಮಾಡೆಲ್ ಆಗಿ Sonnet 5 ಅನ್ನು ವಿಶೇಷವಾಗಿ ವಿನ್ಯಾಸಗೊಳಿಸಿದೆ. ಇದರರ್ಥ, ಬಹು-ಹಂತದ ಉದ್ದೇಶಗಳನ್ನು ಪೂರೈಸಲು ವೆಬ್ ಬ್ರೌಸರ್ಗಳು ಮತ್ತು ಟರ್ಮಿನಲ್ಗಳಂತಹ ಪರಿಸರಗಳೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸಲು ಈ ಮಾಡೆಲ್ ಅನ್ನು ಉತ್ತಮಗೊಳಿಸಲಾಗಿದೆ (optimized). ಈ ಹಿಂದಿನ ಮಾಡೆಲ್ ಆದ Sonnet 4.6 ಕ್ಕೆ ಹೋಲಿಸಿದರೆ ಡೇಟಾ ಗಮನಾರ್ಹ ಏರಿಕೆಯನ್ನು ತೋರಿಸುತ್ತದೆ:
- SWE-bench Pro (Agentic Coding): Sonnet 5 ಮಾಡೆಲ್ 63.2% ತಲುಪಿದೆ, ಇದು Sonnet 4.6 ರ 58.1% ಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿದೆ (Opus 4.8 ರ 69.2% ಕ್ಕಿಂತ ಸ್ವಲ್ಪ ಕಡಿಮೆ).
- Terminal-Bench 2.1: Sonnet 4.6 ರ 67.0% ಕ್ಕೆ ಹೋಲಿಸಿದರೆ 80.4% ಕ್ಕೆ ಭಾರಿ ಜಿಗಿತ ಕಂಡಿದೆ.
- OSWorld-Verified (Computer Use): ಈ ಮಾಡೆಲ್ 81.2% ಅಂಕ ಗಳಿಸಿದ್ದು, ಹಿಂದಿನ ಆವೃತ್ತಿಯ 78.5% ರನ್ನು ಹಿಂದಿಕ್ಕಿದೆ.
ಸೈಬರ್ ಸುರಕ್ಷತೆ ಮತ್ತು ಸುರಕ್ಷತಾ ಮಿತಿಗಳನ್ನು ನಿಭಾಯಿಸುವುದು
ಸೈಬರ್ ಸುರಕ್ಷತೆಯ ಕಾಳಜಿಯಿಂದಾಗಿ ಅಮೆರಿಕ ಸರ್ಕಾರವು Mythos 5 ಮತ್ತು Fable 5 ಮಾಡೆಲ್ಗಳ ಮೇಲೆ ನಿರ್ಬಂಧಗಳನ್ನು ಹೇರಿದ ನಂತರ, Anthropic ಈ ಬಿಡುಗಡೆಯನ್ನು ಅತ್ಯಂತ ಸೂಕ್ಷ್ಮ ಸಮಯದಲ್ಲಿ ಮಾಡಿದೆ. ಇಂತಹ ಅಡೆತಡೆಗಳನ್ನು ತಪ್ಪಿಸಲು, Sonnet 5 ಅನ್ನು ವಿಶೇಷ ಸೈಬರ್ ಸುರಕ್ಷತಾ ಕಾರ್ಯಗಳ ಮೇಲೆ ತರಬೇತಿಗೊಳಿಸಿಲ್ಲ ಎಂದು Anthropic ಖಚಿತಪಡಿಸಿದೆ.
ಎಕ್ಸ್ಪ್ಲಾಯ್ಟ್ (exploit) ಮೌಲ್ಯಮಾಪನಗಳಲ್ಲಿ Sonnet 5 ಮಾಡೆಲ್, Sonnet 4.6 ಕ್ಕಿಂತ ಸ್ವಲ್ಪ ಹೆಚ್ಚಿನ ಭಾಗಶಃ ನಿಯಂತ್ರಣ ದರವನ್ನು (13.2%) ತೋರಿಸಿದರೂ, ಸಾಫ್ಟ್ವೇರ್ ಎಕ್ಸ್ಪ್ಲಾಯ್ಟ್ಗಳನ್ನು ಬರೆಯುವಲ್ಲಿ ಇದು Opus 4.8 ಅಥವಾ Mythos 5 ಕ್ಕಿಂತ ಗಮನಾರ್ಹವಾಗಿ ಕಡಿಮೆ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿದೆ. ಅಪಾಯವನ್ನು ಕಡಿಮೆ ಮಾಡಲು, Anthropic ಡಿಫಾಲ್ಟ್ ಆಗಿ ನೈಜ-ಸಮಯದ ಸೈಬರ್ ಸುರಕ್ಷತಾ ಕ್ರಮಗಳನ್ನು ಜಾರಿಗೆ ತಂದಿದೆ. ಇದರೊಂದಿಗೆ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ (prompt injection) ವಿರುದ್ಧ ಸುಧಾರಿತ ರಕ್ಷಣೆ ಮತ್ತು "ಸೈಕೋಫ್ಯಾಂಟಿಕ್" (sycophantic) ವರ್ತನೆಯನ್ನು (ಬಳಕೆದಾರರ ತಪ್ಪುಗಳಿಗೆ ಸುಮ್ಮನೆ ಒಪ್ಪಿಕೊಳ್ಳುವ ಪ್ರವೃತ್ತಿ) ಕಡಿಮೆ ಮಾಡಲಾಗಿದೆ.
ಲಭ್ಯತೆ ಮತ್ತು "ಟೋಕನ್ ಪ್ಯಾರಾಡಾಕ್ಸ್" (Token Paradox)
Claude Sonnet 5 ಈಗ Claude Platform ಮತ್ತು API (claude-sonnet-5) ಮೂಲಕ ಲಭ್ಯವಿದೆ. ಇದು ಹತ್ತು ಲಕ್ಷ (one-million) ಟೋಕನ್ಗಳ ಕಾಂಟೆಕ್ಸ್ಟ್ ವಿಂಡೋ (context window) ಮತ್ತು ಜನವರಿ 2026 ರ ತರಬೇತಿ ಮಿತಿಯನ್ನು (training cutoff) ಹೊಂದಿದೆ.
Anthropic ಪರಿಚಯಾತ್ಮಕ ಬೆಲೆಯನ್ನು ನೀಡುತ್ತಿದ್ದು—ಆಗಸ್ಟ್ 31, 2026 ರವರೆಗೆ ಪ್ರತಿ ಮಿಲಿಯನ್ ಇನ್ಪುಟ್ ಟೋಕನ್ಗಳಿಗೆ $2 ಮತ್ತು ಪ್ರತಿ ಮಿಲಿಯನ್ ಔಟ್ಪುಟ್ ಟೋಕನ್ಗಳಿಗೆ $10—ಆದರೆ ಡೆವಲಪರ್ಗಳು "ಟೋಕನ್ ಪ್ಯಾರಾಡಾಕ್ಸ್" ಬಗ್ಗೆ ಎಚ್ಚರದಿಂದಿರಬೇಕು. ಈ ಮಾಡೆಲ್ ಹೆಚ್ಚು ಏಜೆಂಟಿಕ್ ಆಗಿರುವುದರಿಂದ ಮತ್ತು ಹೆಚ್ಚು ಪುನರಾವರ್ತಿತ ತಾರ್ಕಿಕತೆಯಲ್ಲಿ (iterative reasoning) ತೊಡಗಿಸಿಕೊಳ್ಳುವುದರಿಂದ, ಹಿಂದಿನ ಆವೃತ್ತಿಗಳಿಗಿಂತ ಒಂದು ಕೆಲಸವನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ಇದು ಗಮನಾರ್ಹವಾಗಿ ಹೆಚ್ಚು ಟೋಕನ್ಗಳನ್ನು ಬಳಸಬಹುದು. ಇದು ಕಡಿಮೆ ಟೋಕನ್ ವೆಚ್ಚದ ಪ್ರಯೋಜನವನ್ನು ಕಡಿಮೆ ಮಾಡುವ ಸಾಧ್ಯತೆಯಿದೆ.
ಪ್ರಮುಖ ಅಂಶಗಳು
- ಕಾರ್ಯಕ್ಷಮತೆಯ ಸಮಾನತೆ (Performance Parity): ನಿರ್ದಿಷ್ಟ ತಾರ್ಕಿಕ ಮತ್ತು ಜ್ಞಾನದ ಕೆಲಸದ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳಲ್ಲಿ Sonnet 5 ಮಾಡೆಲ್ ಫ್ಲ್ಯಾಗ್ಶಿಪ್ Opus 4.8 ಗೆ ಸಮನಾಗಿ ಅಥವಾ ಅದಕ್ಕಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.
- ಏಜೆಂಟಿಕ್ ಗಮನ (Agentic Focus): ಈ ಮಾಡೆಲ್ ಕೋಡಿಂಗ್ (SWE-bench) ಮತ್ತು ಟರ್ಮಿನಲ್ ಸಂವಹನದಲ್ಲಿ ಭಾರಿ ಸುಧಾರಣೆಯನ್ನು ತೋರಿಸುತ್ತದೆ, ಇದು ಸ್ವಾಯತ್ತ ಪರಿಕರ ಬಳಕೆಗೆ (autonomous tool use) ಸೂಕ್ತವಾಗಿದೆ.
- ಕಾರ್ಯತಂತ್ರದ ಸುರಕ್ಷತೆ (Strategic Safety): ಹೆಚ್ಚು ವಿವಾದಾತ್ಮಕ ಮತ್ತು ಹೆಚ್ಚಿನ ಅಪಾಯದ ಮುಂಚೂಣಿ ಮಾಡೆಲ್ಗಳಿಂದ ಈ ಮಾಡೆಲ್ ಅನ್ನು ಪ್ರತ್ಯೇಕಿಸಲು Anthropic ಅಂತರ್ಗತ ಸೈಬರ್ ಸುರಕ್ಷತಾ ಕ್ರಮಗಳಿಗೆ ಆದ್ಯತೆ ನೀಡಿದೆ.
