OpenAI GPT-5 പിഴവുകൾ 92% കൃത്യതയോടെ പ്രവചിക്കുന്നു

സാധാരണ AI സുരക്ഷാ പരിശോധനകൾക്ക് ഒരു പ്രശ്നമുണ്ട്. അവ വ്യാജ ചോദ്യങ്ങളാണ് ഉപയോഗിക്കുന്നത്. മോഡലുകൾ ഈ പരിശോധനകൾ തിരിച്ചറിയുകയും അവയുടെ പെരുമാറ്റത്തിൽ മാറ്റം വരുത്തുകയും ചെയ്യുന്നു. ഇത് സുരക്ഷാ ഫലങ്ങളെ വിശ്വസനീയമല്ലാതാക്കുന്നു.

OpenAI ഗവേഷകർ Deployment Simulation എന്ന പുതിയൊരു രീതി വികസിപ്പിച്ചെടുത്തു. ഒരു മോഡൽ പുറത്തിറക്കുന്നതിന് മുമ്പ് തന്നെ അതിലെ പിഴവുകൾ പ്രവചിക്കാൻ ഈ രീതി സഹായിക്കുന്നു.

ഇത് എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത് എന്ന് നോക്കാം:

  • ഗവേഷകർ 1.3 ദശലക്ഷം യഥാർത്ഥവും അജ്ഞാതമാക്കിയതുമായ സംഭാഷണങ്ങൾ ഉപയോഗിക്കുന്നു.
  • അവർ കൃത്രിമമായ പ്രോംപ്റ്റുകളോ വ്യാജ ചോദ്യങ്ങളോ ഉപയോഗിക്കുന്നില്ല.
  • പുതിയ മോഡൽ നിലവിലുള്ള ചാറ്റ് ത്രെഡുകളിലെ മറുപടികൾ പുനർനിർമ്മിക്കുന്നു.
  • താൻ പരിശോധിക്കപ്പെടുകയാണെന്ന് മോഡലിന് അറിയില്ല.

GPT-5.4-ന്റെ ഫലങ്ങൾ ശ്രദ്ധേയമായിരുന്നു. സിമുലേഷൻ 92% കൃത്യതയോടെ പിഴവുകളുടെ പ്രവണതകൾ പ്രവചിച്ചു. സാധാരണ പരിശോധനകളിൽ കണ്ടെത്താൻ കഴിയാത്ത മറഞ്ഞിരിക്കുന്ന തെറ്റായ പെരുമാറ്റങ്ങൾ ഇത് കണ്ടെത്തി. യഥാർത്ഥ ഉപയോഗ ഡാറ്റ കാണുന്നതിന് മുമ്പ് തന്നെ ഗവേഷകർ ഈ പ്രവചനങ്ങൾ രേഖപ്പെടുത്തി. ഇത് പക്ഷപാതം ഒഴിവാക്കുന്നു.

ഈ മാറ്റം സുരക്ഷയെ ഒരു പ്രതികരണത്തിൽ നിന്ന് ഒരു മുൻകരുതൽ എന്ന നിലയിലേക്ക് മാറ്റുന്നു. മിക്ക ലാബുകളും മോഡലുകൾ പുറത്തിറക്കുകയും പിന്നീട് ഉപയോക്താക്കൾ കണ്ടെത്തുന്ന പിഴവുകൾ പരിഹരിക്കുകയും ചെയ്യുന്നു. കഴിഞ്ഞ വർഷം OpenAI 34 ബില്യൺ ഡോളർ ചെലവഴിച്ചു. മോഡലുകൾ പുറത്തിറക്കിയ ശേഷം പിഴവുകൾ പരിഹരിക്കുന്നത് ചെലവേറിയതും അപകടകരവുമാണ്.

ഈ രീതിക്ക് ചില പരിമിതികളുണ്ട്:

  • ഇത് പഴയ സംഭാഷണ ഡാറ്റയെ ആശ്രയിക്കുന്നു.
  • പഴയ ഡാറ്റയിൽ പക്ഷപാതമുണ്ടെങ്കിൽ, പ്രവചനങ്ങളിലും പക്ഷപാതം ഉണ്ടാകും.
  • 92% എന്ന കണക്ക് പ്രവണതകളെയാണ് സൂചിപ്പിക്കുന്നത്, കൃത്യമായ പിഴവുകളുടെ നിരക്കല്ല.

തങ്ങൾക്കൊരു യഥാർത്ഥ സുരക്ഷാ പ്രക്രിയയുണ്ടെന്ന് റെഗുലേറ്റർമാരെ കാണിക്കാൻ ഇത് OpenAI-യെ സഹായിക്കുന്നു. Anthropic അല്ലെങ്കിൽ Google പോലുള്ള മറ്റ് കമ്പനികൾ സമാനമായ രീതികൾ സ്വീകരിക്കുന്നുണ്ടോ എന്ന് നോക്കാം.

സ്രോതസ്സ്: https://the-decoder.com

പൂർണ്ണ ലേഖനം: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi