𝗢𝗽𝗲𝗻𝗔𝗜 𝗠𝗲𝗷𝗼𝗿𝗮 𝗹𝗮 𝗦𝗲𝗴𝘂𝗿𝗶𝗱𝗮𝗱 𝗱𝗲 𝗹𝗮 𝗜𝗔 𝗰𝗼𝗻 𝗥𝗟
OpenAI ha encontrado una nueva forma de hacer que la IA sea más segura. Utilizaron pequeñas cantidades de Aprendizaje por Refuerzo (RL) para enseñar rasgos específicos a los modelos. Estos rasgos incluyen la veracidad, la imparcialidad y la honestidad.
Los resultados muestran que el modelo mejoró en 44 de los 53 benchmarks de seguridad.
Qué hace que este método sea diferente:
- Utiliza rasgos específicos en lugar de una constitución escrita.
- Hace que los modelos sean más difíciles de manipular con prompts malintencionados.
- Resiste el fine-tuning perjudicial.
- Mantiene la utilidad del modelo mientras detiene el comportamiento inadecuado.
OpenAI llama a esto persistencia selectiva. El modelo se mantiene flexible para tareas útiles, pero resiste el direccionamiento perjudicial.
Los investigadores utilizaron datos de campos como la atención médica, el derecho y la ciencia. Desc