Claude Mythos కి సవాలు విసురుతూ OpenAI తన GPT-5.6 Sol ను విడుదల చేసింది

ఏజెంటిక్ కోడింగ్ (agentic coding) మరియు సైబర్‌సెక్యూరిటీ రంగాలలో ఆధిపత్యం వహించేలా రూపొందించిన అత్యాధునిక కొత్త మోడల్ జనరేషన్‌ అయిన GPT-5.6 Sol ను OpenAI అధికారికంగా పరిచయం చేసింది. ఈ విడుదల రీజనింగ్ (reasoning) సామర్థ్యాలలో గణనీయమైన పురోగతిని సూచిస్తున్నప్పటికీ, అమెరికా ప్రభుత్వపు కఠినమైన యాక్సెస్ ప్రోటోకాల్‌ల వల్ల తలెత్తుతున్న వివాదం మధ్య ఇది అందుబాటులోకి వచ్చింది.

పనితీరు మరియు స్కేల్ కోసం కొత్త టైర్డ్ ఆర్కిటెక్చర్ (Tiered Architecture)

కేవలం ఒకే మోడల్‌ను విడుదల చేసే పద్ధతి నుండి పక్కకు తప్పుకుని, వివిధ ఎంటర్‌ప్రైజ్ అవసరాల కోసం OpenAI ఒక లేయర్డ్ నేమింగ్ స్కీమ్‌ను (layered naming scheme) ప్రవేశపెట్టింది. ఈ ఆర్కిటెక్చర్ "Sol," "Terra," మరియు "Luna"లను శాశ్వత పనితీరు స్థాయిలుగా (performance tiers) ఉపయోగిస్తుంది, తద్వారా డెవలపర్లు తమ బడ్జెట్ మరియు సంక్లిష్టతకు అనుగుణంగా వీటిని స్కేల్ చేసుకోవచ్చు.

ఈ క్రమానుగత శ్రేణిలో అత్యున్నత స్థాయిలో ఫ్లాగ్‌షిప్ మోడల్ అయిన Sol ఉంది. దీని కింద Terra ఉంది, ఇది GPT-5.5 పనితీరును దాదాపు సగం ఖర్చుతో అందిస్తుంది, మరియు బడ్జెట్ ఫ్రెండ్లీ స్థాయిలో Luna ఉంది. అధిక పనిభారం (high-intensity workloads) కోసం, లోతైన రీజనింగ్ కోసం OpenAI "max" మోడ్‌ను మరియు బహుముఖ, సంక్లిష్టమైన పనులను పరిష్కరించడానికి సమాంతరంగా నడిచే సబ్-ఏజెంట్లను ఉపయోగించే "ultra" మోడ్‌ను పరిచయం చేసింది.

కోడింగ్ మరియు బయాలజీలో కొత్త బెంచ్‌మార్క్‌లను నెలకొల్పడం

Anthropic యొక్క Claude Mythos క్లాస్‌ను అధిగమించడమే GPT-5.6 Sol యొక్క ప్రాథమిక లక్ష్యం. ఏజెంటిక్ కోడింగ్ పనులలో, గణాంకాలు OpenAI వాదనలకు మద్దతు ఇస్తున్నాయి: Terminal-Bench 2.1 బెంచ్‌మార్క్‌లో, Sol Ultra అద్భుతమైన 91.9% సాధించింది, ఇది Claude Mythos 5 (88.0%) మరియు Google యొక్క Gemini 3.1 Pro Preview (70.7%)లను అధిగమించింది.

ఈ మోడల్ ప్రత్యేక శాస్త్రాలలో కూడా గణనీయమైన పురోగతిని ప్రదర్శిస్తోంది. GeneBench v1 జెనోమిక్స్ బెంచ్‌మార్క్‌లో, Sol 30% స్కోరు సాధించింది, ఇది GPT-5.5 సాధించిన 22% కంటే గణనీయమైన పెరుగుదల, ముఖ్యంగా తక్కువ టోకెన్లను ఉపయోగిస్తూనే ఇది సాధ్యమైంది. ఈ సామర్థ్యం OpenAI కేవలం "పెద్ద" కంప్యూట్ (larger compute) పై కాకుండా, "స్మార్టర్" కంప్యూట్ (smarter compute) పై దృష్టి సారిస్తోందని సూచిస్తోంది.

సైబర్‌సెక్యూరిటీ: డిఫెండర్ వర్సెస్ అటాకర్

సైబర్‌సెక్యూరిటీ రంగంలో, Sol ఒక ప్రముఖ డిఫెన్సివ్ టూల్‌గా ఉండాలని లక్ష్యంగా పెట్టుకుంది. Google V8 JavaScript ఇంజిన్‌లో లోపాలను (vulnerabilities) కనుగొని, వాటిని ఎక్స్‌ప్లాయిట్ చేసే సామర్థ్యాన్ని పరీక్షించే ExploitBenchలో, Sol అనేది Anthropic యొక్క Mythos Preview పనితీరుకు సమానంగా ఉంది, కానీ ఒక కీలకమైన ప్రయోజనాన్ని కలిగి ఉంది: ఇది దాదాపు మూడింట ఒక వంతు అవుట్‌పుట్ టోకెన్లను మాత్రమే ఉపయోగిస్తుంది.

OpenAI, Sol ను స్వయంప్రతిపత్తి కలిగిన అటాకర్ (autonomous attacker) కంటే డిఫెండర్‌గా (defender) స్థిరపరచాలని చూస్తోంది. Chromium మరియు Firefoxలకు సంబంధించిన పరీక్షలలో, ఈ మోడల్ బగ్‌లను మరియు ఎక్స్‌ప్లాయిటేషన్ ప్రిమిటివ్‌లను విజయవంతంగా గుర్తించింది, కానీ స్వయంప్రతిపత్తి కలిగిన, ఫుల్-చైన్ ఎక్స్‌ప్లాయిట్‌ను రూపొందించకుండా ఆగిపోయింది. Sol తన అంతర్గత Preparedness Framework లోని "Cyber Critical" పరిమితి కంటే తక్కువగానే ఉందని OpenAI పేర్కొంది.

ప్రభుత్వ నియంత్రిత యాక్సెస్ పై వివాదం

GPT-5.6 Sol విడుదల ప్రక్రియ ఘర్షణ లేకుండా సాగడం లేదు. ప్రస్తుతం, అమెరికా ప్రభుత్వం విధించిన పరిమితుల కారణంగా, API మరియు Codex ద్వారా కేవలం కొద్దిమంది ఎంపిక చేసిన భాగస్వాములకు మాత్రమే దీని యాక్సెస్ పరిమితం చేయబడింది. Anthropic యొక్క Fable 5 ను మార్కెట్ నుండి తొలగించాలన్న ప్రభుత్వ మునుపటి నిర్ణయం తర్వాత ఇది జరిగింది.

ఈ పరిమితులకు OpenAI తీవ్ర వ్యతిరేకతను వ్యక్తం చేస్తూ, ప్రస్తుత ప్రభుత్వ యాక్సెస్ ప్రక్రియను "అస్థిరమైనది" (unsustainable) అని పేర్కొంది. ఇటువంటి పరిమితులు డెవలపర్లు, ఎంటర్‌ప్రైజ్‌లు మరియు సైబర్ డిఫెండర్లు ప్రపంచ డిజిటల్ మౌలిక సదుపాయాలను సురక్షితం చేయడానికి అవసరమైన సాధనాలను పొందకుండా అడ్డుకుంటాయని కంపెనీ వాదిస్తోంది.

ముఖ్య అంశాలు

  • టైర్డ్ మోడల్ వ్యూహం (Tiered Model Strategy): OpenAI ఒక కొత్త క్రమానుగత శ్రేణిని—Sol (ఫ్లాగ్‌షిప్), Terra (మిడ్-టైర్), మరియు Luna (బడ్జెట్)—మరియు సమాంతర సబ్-ఏజెంట్ టాస్క్ ఎగ్జిక్యూషన్ కోసం "Ultra" మోడ్‌ను పరిచయం చేసింది.
  • బెంచ్‌మార్క్ ఆధిపత్యం: GPT-5.6 Sol Ultra, Terminal-Bench 2.1లో 91.9% స్కోరుతో ఏజెంటిక్ కోడింగ్‌లో పరిశ్రమను నడిపిస్తోంది, ఇది Claude Mythos మరియు Gemini కంటే గణనీయంగా మెరుగైనది.
  • ఎఫిషియన్సీ-ఫస్ట్ అప్రోచ్ (Efficiency-First Approach): Sol చాలా తక్కువ టోకెన్లను ఉపయోగిస్తూనే పోటీతత్వ సైబర్‌సెక్యూరిటీ మరియు జెనోమిక్స్ ఫలితాలను సాధిస్తోంది, ఇది డెవలపర్లకు ప్రతి పనికి అయ్యే ఖర్చును తగ్గించే అవకాశం ఉంది.