OpenAI Launches GPT 5.6 Sol to Challenge Claude Mythos

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialകഴിഞ്ഞ ആഴ്‌ച3min read

OpenAI Launches GPT 5.6 Sol to Challenge Claude Mythos

In this article

Claude Mythos-നെ വെല്ലുവിളിക്കാൻ OpenAI GPT-5.6 Sol പുറത്തിറക്കി

ഏജന്റിക് കോഡിംഗ് (agentic coding), സൈബർ സുരക്ഷാ മേഖലകളിൽ ആധിപത്യം സ്ഥാപിക്കുന്നതിനായി രൂപകൽപ്പന ചെയ്ത അത്യാധുനികമായ പുതിയ മോഡൽ ജനറേഷനായ GPT-5.6 Sol OpenAI ഔദ്യോഗികമായി അവതരിപ്പിച്ചു. ഇതിന്റെ പുറത്തിറങ്ങൽ യുക്തിസഹമായ ചിന്താശേഷിയിൽ (reasoning capabilities) വലിയൊരു കുതിച്ചുചാട്ടമായി കണക്കാക്കപ്പെടുമ്പോഴും, യുഎസ് സർക്കാരിന്റെ നിയന്ത്രണപരമായ ആക്സസ് പ്രോട്ടോക്കോളുകളെക്കുറിച്ചുള്ള തർക്കങ്ങൾക്കിടയിലാണ് ഇത് വരുന്നത്.

പ്രകടനത്തിനും വ്യാപ്തിക്കുമായി പുതിയ തരംതിരിച്ചുള്ള ആർക്കിടെക്ചർ (Tiered Architecture)

ഒറ്റപ്പെട്ട മോഡലുകൾ പുറത്തിറക്കുന്ന രീതിയിൽ നിന്ന് മാറി, വിവിധ എന്റർപ്രൈസ് ആവശ്യങ്ങൾക്കായി ഒരു ലെയർഡ് നാമകരണ രീതിയാണ് OpenAI അവതരിപ്പിച്ചിരിക്കുന്നത്. ഈ ആർക്കിടെക്ചറിൽ "Sol", "Terra", "Luna" എന്നിവ സ്ഥിരമായ പെർഫോമൻസ് ടയറുകളായി ഉപയോഗിക്കുന്നു, ഇത് ബജറ്റിനും സങ്കീർണ്ണതയ്ക്കും അനുസരിച്ച് ഡെവലപ്പർമാർക്ക് മോഡലുകൾ തിരഞ്ഞെടുക്കാൻ സഹായിക്കുന്നു.

ശ്രേണിയിൽ ഏറ്റവും മുകളിൽ ഫ്ലാഗ്ഷിപ്പ് മോഡലായ Sol ആണ്. ഇതിന് താഴെയായി, GPT-5.5-ന്റെ പ്രകടനം പകുതിയോളം ചിലവിൽ നൽകുന്ന Terra-യും, കുറഞ്ഞ ചിലവിലുള്ള Luna-യും ഉണ്ട്. ഉയർന്ന തീവ്രതയുള്ള ജോലികൾക്കായി, ആഴത്തിലുള്ള യുക്തിചിന്തയ്ക്കായി (deep reasoning) "max" മോഡും, സങ്കീർണ്ണമായ ജോലികൾ കൈകാര്യം ചെയ്യാൻ സമാന്തരമായി പ്രവർത്തിക്കുന്ന സബ് ഏജന്റുകളെ (sub-agents) ഉപയോഗിക്കുന്ന "ultra" മോഡും OpenAI അവതരിപ്പിച്ചിട്ടുണ്ട്.

കോഡിംഗിലും ബയോളജിയിലും പുതിയ മാനദണ്ഡങ്ങൾ നിശ്ചയിക്കുന്നു

Anthropic-ന്റെ Claude Mythos ക്ലാസിനെ മറികടക്കുക എന്നതാണ് GPT-5.6 Sol-ന്റെ പ്രധാന ലക്ഷ്യം. ഏജന്റിക് കോഡിംഗ് ജോലികളിൽ, OpenAI-യുടെ അവകാശവാദങ്ങളെ കണക്കുകൾ ശരിവെക്കുന്നു: Terminal-Bench 2.1 ബെഞ്ച്മാർക്കിൽ, Sol Ultra 91.9% എന്ന അത്ഭുതകരമായ നേട്ടം കൈവരിച്ചു, ഇത് Claude Mythos 5 (88.0%), Google-ന്റെ Gemini 3.1 Pro Preview (70.7%) എന്നിവയെ മറികടക്കുന്നു.

സവിശേഷമായ ശാസ്ത്രശാഖകളിലും ഈ മോഡൽ വലിയ മുന്നേറ്റം കാണിക്കുന്നുണ്ട്. GeneBench v1 ജനിതകശാസ്ത്ര (genomics) ബെഞ്ച്മാർക്കിൽ, Sol 30% സ്കോർ ചെയ്തു; ഇത് GPT-5.5 നേടിയ 22%-നേക്കാൾ ഗണ്യമായ വർദ്ധനവാണ്, ശ്രദ്ധേയമായ കാര്യം കുറഞ്ഞ ടോക്കണുകൾ ഉപയോഗിച്ചാണ് ഇത് നേടിയതെന്നതാണ്. വെറും "വലിയ" കമ്പ്യൂട്ടിനേക്കാൾ "ബുദ്ധിപരമായ" കമ്പ്യൂട്ടിനാണ് OpenAI മുൻഗണന നൽകുന്നതെന്ന് ഈ കാര്യക്ഷമത സൂചിപ്പിക്കുന്നു.

സൈബർ സുരക്ഷ: പ്രതിരോധിക്കുന്നവൻ vs ആക്രമിക്കുന്നവൻ

സൈബർ സുരക്ഷാ രംഗത്ത്, ഒരു മികച്ച പ്രതിരോധ ഉപകരണമായി മാറാനാണ് Sol ലക്ഷ്യമിടുന്നത്. Google V8 JavaScript എഞ്ചിനിലെ വീഴ്ചകൾ കണ്ടെത്താനും അവ ഉപയോഗപ്പെടുത്താനുമുള്ള ശേഷി പരിശോധിക്കുന്ന ExploitBench-ൽ, Anthropic-ന്റെ Mythos Preview-ന് തുല്യമായ പ്രകടനം Sol കാഴ്ചവെക്കുന്നു; എന്നാൽ ഒരു പ്രധാന നേട്ടം ഇതിനുണ്ട്: ഇത് ഏകദേശം മൂന്നിലൊന്ന് ഔട്ട്‌പുട്ട് ടോക്കണുകൾ മാത്രമേ ഉപയോഗിക്കുന്നുള്ളൂ.

ഒരു സ്വയംഭരണാധികാര ആക്രമണകാരി എന്നതിലുപരി ഒരു പ്രതിരോധകനായാണ് OpenAI Sol-നെ അവതരിപ്പിക്കുന്നത്. Chromium, Firefox എന്നിവയുമായി ബന്ധപ്പെട്ട പരീക്ഷണങ്ങളിൽ, മോഡൽ ബഗുകളും exploitation primitives-ഉം വിജയകരമായി തിരിച്ചറിഞ്ഞു, എന്നാൽ ഒരു സ്വയംഭരണാധികാര ഫുൾ-ചെയിൻ എക്സ്പ്ലോയിറ്റ് (full-chain exploit) നിർമ്മിക്കുന്നതിൽ നിന്ന് അത് വിട്ടുനിന്നു. തങ്ങളുടെ ആഭ്യന്തര Preparedness Framework-നുള്ളിൽ Sol "Cyber Critical" പരിധിക്കടിയിൽ തന്നെയാണെന്ന് OpenAI ഉറപ്പിച്ചു പറയുന്നു.

സർക്കാർ നിയന്ത്രിത ആക്സസിനെക്കുറിച്ചുള്ള തർക്കം

GPT-5.6 Sol-ന്റെ അവതരണം തർക്കങ്ങളില്ലാത്ത ഒന്നല്ല. നിലവിൽ, യുഎസ് സർക്കാർ ഏർപ്പെടുത്തിയ നിയന്ത്രണം അനുസരിച്ച്, API, Codex എന്നിവയിലൂടെ തിരഞ്ഞെടുത്ത ഏതാനും പങ്കാളികൾക്ക് മാത്രമേ ഇതിന്റെ ആക്സസ് ലഭിക്കുന്നുള്ളൂ. Anthropic-ന്റെ Fable 5 വിപണിയിൽ നിന്ന് നീക്കം ചെയ്യാൻ സർക്കാർ നേരത്തെ എടുത്ത തീരുമാനത്തിന് പിന്നാലെയാണിത്.

നിലവിലെ സർക്കാർ ആക്സസ് പ്രക്രിയ "നിലനിൽപ്പില്ലാത്തതാണ്" (unsustainable) എന്ന് വിശേഷിപ്പിച്ചുകൊണ്ട് OpenAI ഈ നിയന്ത്രണങ്ങളെ ശക്തമായി എതിർത്തു. ആഗോള ഡിജിറ്റൽ ഇൻഫ്രാസ്ട്രക്ചർ സുരക്ഷിതമാക്കാൻ ഡെവലപ്പർമാർക്കും സംരംഭങ്ങൾക്കും സൈബർ പ്രതിരോധ സേനയ്ക്കും ആവശ്യമായ ഉപകരണങ്ങൾ ഉപയോഗിക്കുന്നതിൽ നിന്ന് ഇത്തരം നിയന്ത്രണങ്ങൾ തടയുന്നുവെന്ന് കമ്പനി വാദിക്കുന്നു.

പ്രധാന കാര്യങ്ങൾ

തരംതിരിച്ചുള്ള മോഡൽ തന്ത്രം (Tiered Model Strategy): സമാന്തര സബ് ഏജന്റ് ടാസ്ക് എക്സിക്യൂഷനായി "Ultra" മോഡിനൊപ്പം, Sol (ഫ്ലാഗ്ഷിപ്പ്), Terra (മിഡ്-ടയർ), Luna (ബജറ്റ്) എന്നിങ്ങനെ പുതിയൊരു ശ്രേണി OpenAI അവതരിപ്പിക്കുന്നു.
ബെഞ്ച്മാർക്കിലെ ആധിപത്യം: Terminal-Bench 2.1-ൽ 91.9% നേട്ടത്തോടെ GPT-5.6 Sol Ultra ഏജന്റിക് കോഡിംഗിൽ വ്യവസായത്തെ നയിക്കുന്നു; ഇത് Claude Mythos, Gemini എന്നിവയേക്കാൾ ഗണ്യമായ മുന്നേറ്റമാണ്.
കാര്യക്ഷമതയ്ക്ക് മുൻഗണന: കുറഞ്ഞ ടോക്കണുകൾ ഉപയോഗിച്ചുകൊണ്ട് തന്നെ മികച്ച സൈബർ സുരക്ഷാ, ജനിതകശാസ്ത്ര ഫലങ്ങൾ Sol കൈവരിക്കുന്നു, ഇത് ഡെവലപ്പർമാർക്ക് ഓരോ ജോലിക്കുമുള്ള യഥാർത്ഥ ചിലവ് കുറയ്ക്കാൻ സഹായിച്ചേക്കാം.

OpenAI Launches GPT 5.6 Sol to Challenge Claude Mythos

Claude Mythos-നെ വെല്ലുവിളിക്കാൻ OpenAI GPT-5.6 Sol പുറത്തിറക്കി

പ്രകടനത്തിനും വ്യാപ്തിക്കുമായി പുതിയ തരംതിരിച്ചുള്ള ആർക്കിടെക്ചർ (Tiered Architecture)

കോഡിംഗിലും ബയോളജിയിലും പുതിയ മാനദണ്ഡങ്ങൾ നിശ്ചയിക്കുന്നു

സൈബർ സുരക്ഷ: പ്രതിരോധിക്കുന്നവൻ vs ആക്രമിക്കുന്നവൻ

സർക്കാർ നിയന്ത്രിത ആക്സസിനെക്കുറിച്ചുള്ള തർക്കം

പ്രധാന കാര്യങ്ങൾ

Continue reading

OpenAI Launches GPT 5.6 Suite Amidst US Regulatory Scrutiny

അമേരിക്കൻ സർക്കാരിന്റെ അഭ്യർത്ഥനയെത്തുടർന്ന് OpenAI GPT 5.6 പുറത്തിറക്കുന്നത് പരിമിതപ്പെടുത്തി

OpenAI's GPT 5.6 Sol Caught Cheating in Software Benchmarks

GTP 5.6 Sol: OpenAI's Access Wall Explained

GPT 5.6 ഒരു മോഡൽ ലോഞ്ച് മാത്രമാണ്. യഥാർത്ഥ കഥ ആക്സസ് ലിസ്റ്റിലാണ്.