Claude Mythos-നെ വെല്ലുവിളിക്കാൻ OpenAI GPT-5.6 Sol പുറത്തിറക്കി
ഏജന്റിക് കോഡിംഗ് (agentic coding), സൈബർ സുരക്ഷാ മേഖലകളിൽ ആധിപത്യം സ്ഥാപിക്കുന്നതിനായി രൂപകൽപ്പന ചെയ്ത അത്യാധുനികമായ പുതിയ മോഡൽ ജനറേഷനായ GPT-5.6 Sol OpenAI ഔദ്യോഗികമായി അവതരിപ്പിച്ചു. ഇതിന്റെ പുറത്തിറങ്ങൽ യുക്തിസഹമായ ചിന്താശേഷിയിൽ (reasoning capabilities) വലിയൊരു കുതിച്ചുചാട്ടമായി കണക്കാക്കപ്പെടുമ്പോഴും, യുഎസ് സർക്കാരിന്റെ നിയന്ത്രണപരമായ ആക്സസ് പ്രോട്ടോക്കോളുകളെക്കുറിച്ചുള്ള തർക്കങ്ങൾക്കിടയിലാണ് ഇത് വരുന്നത്.
പ്രകടനത്തിനും വ്യാപ്തിക്കുമായി പുതിയ തരംതിരിച്ചുള്ള ആർക്കിടെക്ചർ (Tiered Architecture)
ഒറ്റപ്പെട്ട മോഡലുകൾ പുറത്തിറക്കുന്ന രീതിയിൽ നിന്ന് മാറി, വിവിധ എന്റർപ്രൈസ് ആവശ്യങ്ങൾക്കായി ഒരു ലെയർഡ് നാമകരണ രീതിയാണ് OpenAI അവതരിപ്പിച്ചിരിക്കുന്നത്. ഈ ആർക്കിടെക്ചറിൽ "Sol", "Terra", "Luna" എന്നിവ സ്ഥിരമായ പെർഫോമൻസ് ടയറുകളായി ഉപയോഗിക്കുന്നു, ഇത് ബജറ്റിനും സങ്കീർണ്ണതയ്ക്കും അനുസരിച്ച് ഡെവലപ്പർമാർക്ക് മോഡലുകൾ തിരഞ്ഞെടുക്കാൻ സഹായിക്കുന്നു.
ശ്രേണിയിൽ ഏറ്റവും മുകളിൽ ഫ്ലാഗ്ഷിപ്പ് മോഡലായ Sol ആണ്. ഇതിന് താഴെയായി, GPT-5.5-ന്റെ പ്രകടനം പകുതിയോളം ചിലവിൽ നൽകുന്ന Terra-യും, കുറഞ്ഞ ചിലവിലുള്ള Luna-യും ഉണ്ട്. ഉയർന്ന തീവ്രതയുള്ള ജോലികൾക്കായി, ആഴത്തിലുള്ള യുക്തിചിന്തയ്ക്കായി (deep reasoning) "max" മോഡും, സങ്കീർണ്ണമായ ജോലികൾ കൈകാര്യം ചെയ്യാൻ സമാന്തരമായി പ്രവർത്തിക്കുന്ന സബ് ഏജന്റുകളെ (sub-agents) ഉപയോഗിക്കുന്ന "ultra" മോഡും OpenAI അവതരിപ്പിച്ചിട്ടുണ്ട്.
കോഡിംഗിലും ബയോളജിയിലും പുതിയ മാനദണ്ഡങ്ങൾ നിശ്ചയിക്കുന്നു
Anthropic-ന്റെ Claude Mythos ക്ലാസിനെ മറികടക്കുക എന്നതാണ് GPT-5.6 Sol-ന്റെ പ്രധാന ലക്ഷ്യം. ഏജന്റിക് കോഡിംഗ് ജോലികളിൽ, OpenAI-യുടെ അവകാശവാദങ്ങളെ കണക്കുകൾ ശരിവെക്കുന്നു: Terminal-Bench 2.1 ബെഞ്ച്മാർക്കിൽ, Sol Ultra 91.9% എന്ന അത്ഭുതകരമായ നേട്ടം കൈവരിച്ചു, ഇത് Claude Mythos 5 (88.0%), Google-ന്റെ Gemini 3.1 Pro Preview (70.7%) എന്നിവയെ മറികടക്കുന്നു.
സവിശേഷമായ ശാസ്ത്രശാഖകളിലും ഈ മോഡൽ വലിയ മുന്നേറ്റം കാണിക്കുന്നുണ്ട്. GeneBench v1 ജനിതകശാസ്ത്ര (genomics) ബെഞ്ച്മാർക്കിൽ, Sol 30% സ്കോർ ചെയ്തു; ഇത് GPT-5.5 നേടിയ 22%-നേക്കാൾ ഗണ്യമായ വർദ്ധനവാണ്, ശ്രദ്ധേയമായ കാര്യം കുറഞ്ഞ ടോക്കണുകൾ ഉപയോഗിച്ചാണ് ഇത് നേടിയതെന്നതാണ്. വെറും "വലിയ" കമ്പ്യൂട്ടിനേക്കാൾ "ബുദ്ധിപരമായ" കമ്പ്യൂട്ടിനാണ് OpenAI മുൻഗണന നൽകുന്നതെന്ന് ഈ കാര്യക്ഷമത സൂചിപ്പിക്കുന്നു.
സൈബർ സുരക്ഷ: പ്രതിരോധിക്കുന്നവൻ vs ആക്രമിക്കുന്നവൻ
സൈബർ സുരക്ഷാ രംഗത്ത്, ഒരു മികച്ച പ്രതിരോധ ഉപകരണമായി മാറാനാണ് Sol ലക്ഷ്യമിടുന്നത്. Google V8 JavaScript എഞ്ചിനിലെ വീഴ്ചകൾ കണ്ടെത്താനും അവ ഉപയോഗപ്പെടുത്താനുമുള്ള ശേഷി പരിശോധിക്കുന്ന ExploitBench-ൽ, Anthropic-ന്റെ Mythos Preview-ന് തുല്യമായ പ്രകടനം Sol കാഴ്ചവെക്കുന്നു; എന്നാൽ ഒരു പ്രധാന നേട്ടം ഇതിനുണ്ട്: ഇത് ഏകദേശം മൂന്നിലൊന്ന് ഔട്ട്പുട്ട് ടോക്കണുകൾ മാത്രമേ ഉപയോഗിക്കുന്നുള്ളൂ.
ഒരു സ്വയംഭരണാധികാര ആക്രമണകാരി എന്നതിലുപരി ഒരു പ്രതിരോധകനായാണ് OpenAI Sol-നെ അവതരിപ്പിക്കുന്നത്. Chromium, Firefox എന്നിവയുമായി ബന്ധപ്പെട്ട പരീക്ഷണങ്ങളിൽ, മോഡൽ ബഗുകളും exploitation primitives-ഉം വിജയകരമായി തിരിച്ചറിഞ്ഞു, എന്നാൽ ഒരു സ്വയംഭരണാധികാര ഫുൾ-ചെയിൻ എക്സ്പ്ലോയിറ്റ് (full-chain exploit) നിർമ്മിക്കുന്നതിൽ നിന്ന് അത് വിട്ടുനിന്നു. തങ്ങളുടെ ആഭ്യന്തര Preparedness Framework-നുള്ളിൽ Sol "Cyber Critical" പരിധിക്കടിയിൽ തന്നെയാണെന്ന് OpenAI ഉറപ്പിച്ചു പറയുന്നു.
സർക്കാർ നിയന്ത്രിത ആക്സസിനെക്കുറിച്ചുള്ള തർക്കം
GPT-5.6 Sol-ന്റെ അവതരണം തർക്കങ്ങളില്ലാത്ത ഒന്നല്ല. നിലവിൽ, യുഎസ് സർക്കാർ ഏർപ്പെടുത്തിയ നിയന്ത്രണം അനുസരിച്ച്, API, Codex എന്നിവയിലൂടെ തിരഞ്ഞെടുത്ത ഏതാനും പങ്കാളികൾക്ക് മാത്രമേ ഇതിന്റെ ആക്സസ് ലഭിക്കുന്നുള്ളൂ. Anthropic-ന്റെ Fable 5 വിപണിയിൽ നിന്ന് നീക്കം ചെയ്യാൻ സർക്കാർ നേരത്തെ എടുത്ത തീരുമാനത്തിന് പിന്നാലെയാണിത്.
നിലവിലെ സർക്കാർ ആക്സസ് പ്രക്രിയ "നിലനിൽപ്പില്ലാത്തതാണ്" (unsustainable) എന്ന് വിശേഷിപ്പിച്ചുകൊണ്ട് OpenAI ഈ നിയന്ത്രണങ്ങളെ ശക്തമായി എതിർത്തു. ആഗോള ഡിജിറ്റൽ ഇൻഫ്രാസ്ട്രക്ചർ സുരക്ഷിതമാക്കാൻ ഡെവലപ്പർമാർക്കും സംരംഭങ്ങൾക്കും സൈബർ പ്രതിരോധ സേനയ്ക്കും ആവശ്യമായ ഉപകരണങ്ങൾ ഉപയോഗിക്കുന്നതിൽ നിന്ന് ഇത്തരം നിയന്ത്രണങ്ങൾ തടയുന്നുവെന്ന് കമ്പനി വാദിക്കുന്നു.
പ്രധാന കാര്യങ്ങൾ
- തരംതിരിച്ചുള്ള മോഡൽ തന്ത്രം (Tiered Model Strategy): സമാന്തര സബ് ഏജന്റ് ടാസ്ക് എക്സിക്യൂഷനായി "Ultra" മോഡിനൊപ്പം, Sol (ഫ്ലാഗ്ഷിപ്പ്), Terra (മിഡ്-ടയർ), Luna (ബജറ്റ്) എന്നിങ്ങനെ പുതിയൊരു ശ്രേണി OpenAI അവതരിപ്പിക്കുന്നു.
- ബെഞ്ച്മാർക്കിലെ ആധിപത്യം: Terminal-Bench 2.1-ൽ 91.9% നേട്ടത്തോടെ GPT-5.6 Sol Ultra ഏജന്റിക് കോഡിംഗിൽ വ്യവസായത്തെ നയിക്കുന്നു; ഇത് Claude Mythos, Gemini എന്നിവയേക്കാൾ ഗണ്യമായ മുന്നേറ്റമാണ്.
- കാര്യക്ഷമതയ്ക്ക് മുൻഗണന: കുറഞ്ഞ ടോക്കണുകൾ ഉപയോഗിച്ചുകൊണ്ട് തന്നെ മികച്ച സൈബർ സുരക്ഷാ, ജനിതകശാസ്ത്ര ഫലങ്ങൾ Sol കൈവരിക്കുന്നു, ഇത് ഡെവലപ്പർമാർക്ക് ഓരോ ജോലിക്കുമുള്ള യഥാർത്ഥ ചിലവ് കുറയ്ക്കാൻ സഹായിച്ചേക്കാം.
