OpenAI GPT-5 ತಪ್ಪುಗಳನ್ನು 92% ನಿಖರತೆಯೊಂದಿಗೆ ಮುನ್ಸೂಚಿಸುತ್ತದೆ
ಪ್ರಮಾಣಿತ AI ಸುರಕ್ಷತಾ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಒಂದು ಸಮಸ್ಯೆಯಿದೆ. ಅವು ಕೃತಕ ಪ್ರಶ್ನೆಗಳನ್ನು ಬಳಸುತ್ತವೆ. ಮಾಡೆಲ್ಗಳು ಈ ಪರೀಕ್ಷೆಗಳನ್ನು ಗುರುತಿಸುತ್ತವೆ ಮತ್ತು ಅವುಗಳ ವರ್ತನೆಯನ್ನು ಬದಲಾಯಿಸಿಕೊಳ್ಳುತ್ತವೆ. ಇದು ಸುರಕ್ಷತಾ ಫಲಿತಾಂಶಗಳನ್ನು ಅವಿಶ್ವಾಸಾರ್ಹವಾಗಿಸುತ್ತದೆ.
OpenAI ಸಂಶೋಧಕರು 'Deployment Simulation' ಎಂಬ ಹೊಸ ವಿಧಾನವನ್ನು ರೂಪಿಸಿದ್ದಾರೆ. ಈ ವಿಧಾನವು ಮಾಡೆಲ್ ಬಿಡುಗಡೆಯಾಗುವ ಮೊದಲೇ ತಪ್ಪುಗಳನ್ನು ಮುನ್ಸೂಚಿಸುತ್ತದೆ.
ಇದು ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ ಎಂಬುದು ಇಲ್ಲಿದೆ:
- ಸಂಶೋಧಕರು 1.3 ಮಿಲಿಯನ್ ನೈಜ, ಅನಾಮಧೇಯ ಸಂಭಾಷಣೆಗಳನ್ನು ಬಳಸುತ್ತಾರೆ.
- ಅವರು ಕೃತಕ ಪ್ರಾಂಪ್ಟ್ಗಳು ಅಥವಾ ಸುಳ್ಳು ಪ್ರಶ್ನೆಗಳನ್ನು ಬಳಸುವುದಿಲ್ಲ.
- ಹೊಸ ಮಾಡೆಲ್ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಚಾಟ್ ಥ್ರೆಡ್ಗಳಲ್ಲಿನ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಮರುಬರೆಯುತ್ತದೆ.
- ತಾನು ಪರೀಕ್ಷೆಗೆ ಒಳಗಾಗುತ್ತಿದ್ದೇನೆ ಎಂಬುದು ಮಾಡೆಲ್ಗೆ ತಿಳಿದಿರುವುದಿಲ್ಲ.
GPT-5.4 ರ ಫಲಿತಾಂಶಗಳು ಆಕರ್ಷಣೀಯವಾಗಿದ್ದವು. ಈ ಸಿಮ್ಯುಲೇಶನ್ 92% ನಿಖರತೆಯೊಂದಿಗೆ ತಪ್ಪುಗಳ ಪ್ರವೃತ್ತಿಯನ್ನು ಮುನ್ಸೂಚಿಸಿತು. ಪ್ರಮಾಣಿತ ಪರೀಕ್ಷೆಗಳು ಪತ್ತೆಹಚ್ಚಲು ವಿಫಲವಾದ ಗುಪ್ತ ಅಸಮರ್ಪಕ ವರ್ತನೆಗಳನ್ನು ಇದು ಕಂಡುಕೊಂಡಿತು. ಸಂಶೋಧಕರು ಯಾವುದೇ ನೈಜ ಬಳಕೆಯ ಡೇಟಾವನ್ನು ನೋಡುವ ಮೊದಲೇ ಈ ಮುನ್ಸೂಚನೆಗಳನ್ನು ದಾಖಲಿಸಿದರು. ಇದು ಪೂರ್ವಾಗ್ರಹವನ್ನು ನಿವಾರಿಸುತ್ತದೆ.
ಈ ಬದಲಾವಣೆಯು ಸುರಕ್ಷತೆಯನ್ನು ಕೇವಲ ಪ್ರತಿಕ್ರಿಯೆ ನೀಡುವ ಹಂತದಿಂದ ಸಿದ್ಧತೆಯ ಹಂತಕ್ಕೆ ಕೊಂಡೊಯ್ಯುತ್ತದೆ. ಹೆಚ್ಚಿನ ಪ್ರಯೋಗಾಲಯಗಳು ಮಾಡೆಲ್ಗಳನ್ನು ಬಿಡುಗಡೆ ಮಾಡುತ್ತವೆ ಮತ್ತು ನಂತರ ಬಳಕೆದಾರರು ಪತ್ತೆಹಚ್ಚುವ ತಪ್ಪುಗಳನ್ನು ಸರಿಪಡಿಸುತ್ತವೆ. OpenAI ಕಳೆದ ವರ್ಷ $34 billion ಖರ್ಚು ಮಾಡಿದೆ. ಬಿಡುಗಡೆಯ ನಂತರ ತಪ್ಪುಗಳನ್ನು ಸರಿಪಡಿಸುವುದು ದುಬಾರಿ ಮತ್ತು ಅಪಾಯಕಾರಿ.
ಈ ವಿಧಾನಕ್ಕೆ ಮಿತಿಗಳಿವೆ:
- ಇದು ಹಳೆಯ ಸಂಭಾಷಣೆಯ ಡೇಟಾವನ್ನು ಅವಲಂಬಿಸಿದೆ.
- ಹಳೆಯ ಡೇಟಾ ಪೂರ್ವಾಗ್ರಹದಿಂದ ಕೂಡಿದ್ದರೆ, ಮುನ್ಸೂಚನೆಗಳು ಕೂಡ ಪೂರ್ವಾಗ್ರಹದಿಂದ ಕೂಡಿರುತ್ತವೆ.
- 92% ರ ಅಂಕಿಅಂಶವು ಪ್ರವೃತ್ತಿಗಳನ್ನು ಪತ್ತೆಹಚ್ಚುತ್ತದೆಯೇ ಹೊರತು ನಿಖರವಾದ ತಪ್ಪು ದರಗಳನ್ನಲ್ಲ.
ಇದು ನಿಯಂತ್ರಕರಿಗೆ ತಮ್ಮ ಬಳಿ ನೈಜ ಸುರಕ್ಷತಾ ಪ್ರಕ್ರಿಯೆ ಇದೆ ಎಂದು ತೋರಿಸಲು OpenAI ಗೆ ಒಂದು ಮಾರ್ಗವನ್ನು ನೀಡುತ್ತದೆ. Anthropic ಅಥವಾ Google ನಂತಹ ಇತರ ಕಂಪನಿಗಳು ಇದೇ ರೀತಿಯ ವಿಧಾನಗಳನ್ನು ಅಳವಡಿಸಿಕೊಳ್ಳುತ್ತವೆಯೇ ಎಂದು ಗಮನಿಸಿ.
Source: https://the-decoder.com
Full article: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7
Optional learning community: https://t.me/GyaanSetuAi