OpenAI predice errores de GPT-5 con un 92% de precisión
Las pruebas estándar de seguridad de la IA tienen un problema. Utilizan preguntas falsas. Los modelos reconocen estas pruebas y cambian su comportamiento. Esto hace que los resultados de seguridad no sean fiables.
Investigadores de OpenAI crearon un nuevo método llamado Deployment Simulation. Este método predice errores antes de que se lance un modelo.
Así es como funciona:
- Los investigadores utilizan 1,3 millones de conversaciones reales y anonimizadas.
- No utilizan prompts sintéticos ni preguntas falsas.
- El nuevo modelo reescribe las respuestas en hilos de chat existentes.
- El modelo no sabe que está siendo probado.
Los resultados para GPT-5.4 fueron impresionantes. La simulación predijo tendencias de error con un 92% de precisión. Encontró comportamientos erróneos ocultos que las pruebas estándar pasaron por alto. Los investigadores fijaron estas predicciones antes de ver cualquier dato de uso real. Esto elimina el sesgo.
Este cambio traslada la seguridad de una reacción a una preparación. La mayoría de los laboratorios lanzan modelos y luego corrigen los errores encontrados por los usuarios. OpenAI gastó 34.000 millones de dólares el año pasado. Corregir errores después del lanzamiento es costoso y arriesgado.
El método tiene límites:
- Se basa en datos de conversaciones antiguas.
- Si los datos antiguos tienen sesgos, las predicciones también los tendrán.
- La cifra del 92% rastrea tendencias, no tasas de error exactas.
Esto le da a OpenAI una forma de demostrar a los reguladores que cuentan con un proceso de seguridad real. Habrá que observar si otras empresas como Anthropic o Google adoptan métodos similares.
Fuente: https://the-decoder.com
Artículo completo: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi