OpenAI GPT-5 பிழைகளை 92% துல்லியத்துடன் கணிக்கிறது
வழக்கமான AI பாதுகாப்புத் சோதனைகளில் ஒரு சிக்கல் உள்ளது. அவை போலி கேள்விகளைப் பயன்படுத்துகின்றன. மாதிரிகள் (Models) இந்தத் சோதனைகளைக் கண்டறிந்து, அவற்றின் செயல்பாட்டை மாற்றிக்கொள்கின்றன. இது பாதுகாப்பு முடிவுகளை நம்பகத்தன்மையற்றதாக மாற்றுகிறது.
OpenAI ஆராய்ச்சியாளர்கள் Deployment Simulation எனப்படும் ஒரு புதிய முறையை உருவாக்கியுள்ளனர். இந்த முறை ஒரு மாதிரி (model) பயன்பாட்டிற்கு வரும் முன்பே அதன் பிழைகளைக் கணிக்கிறது.
இது எவ்வாறு செயல்படுகிறது:
- ஆராய்ச்சியாளர்கள் 1.3 மில்லியன் உண்மையான, பெயர் நீக்கப்பட்ட உரையாடல்களைப் பயன்படுத்துகின்றனர்.
- அவர்கள் செயற்கையான தூண்டுதல்களையோ (synthetic prompts) அல்லது போலி கேள்விகளையோ பயன்படுத்துவதில்லை.
- புதிய மாதிரி ஏற்கனவே உள்ள அரட்டைத் தொடர்களில் (chat threads) பதில்களைத் திருத்தி எழுதுகிறது.
- தான் சோதிக்கப்படுவதை அந்த மாதிரி அறியாது.
GPT-5.4 க்கான முடிவுகள் வியக்கத்தக்கவை. இந்த உருவகப்படுத்துதல் (simulation) பிழைப் போக்குகளை 92% துல்லியத்துடன் கணித்தது. வழக்கமான சோதனைகள் கண்டறியாத மறைமுகமான தவறான நடத்தைகளைக் கண்டறிந்தது. ஆராய்ச்சியாளர்கள் உண்மையான பயன்பாட்டுத் தரவுகளைப் பார்ப்பதற்கு முன்பே இந்த கணிப்புகளை உறுதிப்படுத்தினர். இது ஒருதலைப்பட்சமான தன்மையை (bias) நீக்குகிறது.
இந்த மாற்றம் பாதுகாப்பை ஒரு எதிர்வினையிலிருந்து (reaction) ஒரு முன்னேற்பாடாக (preparation) மாற்றுகிறது. பெரும்பாலான ஆய்வகங்கள் மாதிரிகளை வெளியிட்ட பிறகு, பயனர்களால் கண்டறியப்படும் பிழைகளைச் சரிசெய்கின்றன. OpenAI கடந்த ஆண்டு 34 பில்லியன் டாலர்களைச் செலவிட்டது. வெளியீட்டிற்குப் பிறகு பிழைகளைச் சரிசெய்வது செலவு மிக்கது மற்றும் அபாயகரமானது.
இந்த முறைக்கு சில வரம்புகள் உள்ளன:
- இது பழைய உரையாடல் தரவுகளைச் சார்ந்துள்ளது.
- பழைய தரவுகளில் ஒருதலைப்பட்சமான தன்மை இருந்தால், கணிப்புகளும் ஒருதலைப்பட்சமாகவே இருக்கும்.
- 92% என்ற புள்ளி போக்குகளைக் கண்காணிக்கிறது, துல்லியமான பிழை விகிதங்களை அல்ல.
இது தங்களுக்கு உண்மையான பாதுகாப்பு செயல்முறை இருப்பதை ஒழுங்குமுறை ஆணையங்களிடம் (regulators) காட்ட OpenAI-க்கு ஒரு வழியை வழங்குகிறது. Anthropic அல்லது Google போன்ற பிற நிறுவனங்கள் இதே போன்ற முறைகளைப் பின்பற்றுகிறதா என்று கவனியுங்கள்.
ஆதாரம்: https://the-decoder.com
முழு கட்டுரை: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7
விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi