OpenAI mejora la seguridad de la IA con RL

Translated for your language. Leer el original.

AI-assisted draft.

hace 9 horas1min de lectura

𝗢𝗽𝗲𝗻𝗔𝗜 𝗠𝗲𝗷𝗼𝗿𝗮 𝗹𝗮 𝗦𝗲𝗴𝘂𝗿𝗶𝗱𝗮𝗱 𝗱𝗲 𝗹𝗮 𝗜𝗔 𝗰𝗼𝗻 𝗥𝗟

OpenAI ha encontrado una nueva forma de hacer que la IA sea más segura. Utilizaron pequeñas cantidades de Aprendizaje por Refuerzo (RL) para enseñar rasgos específicos a los modelos. Estos rasgos incluyen la veracidad, la imparcialidad y la honestidad.

Los resultados muestran que el modelo mejoró en 44 de los 53 benchmarks de seguridad.

Qué hace que este método sea diferente:

Utiliza rasgos específicos en lugar de una constitución escrita.
Hace que los modelos sean más difíciles de manipular con prompts malintencionados.
Resiste el fine-tuning perjudicial.
Mantiene la utilidad del modelo mientras detiene el comportamiento inadecuado.

OpenAI llama a esto persistencia selectiva. El modelo se mantiene flexible para tareas útiles, pero resiste el direccionamiento perjudicial.

Los investigadores utilizaron datos de campos como la atención médica, el derecho y la ciencia. Desc

OpenAI mejora la seguridad de la IA con RL

Seguir leyendo

Las simulaciones de IA previas al lanzamiento son el nuevo control de seguridad de modelos

𝗣𝗿𝗲 𝗹𝗮𝘂𝗻𝗰𝗵 𝗔𝗜 𝘀𝗶𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻𝘀 𝗮𝗿𝗲 𝘁𝗵𝗲 𝗻𝗲𝘄 𝘀𝗮𝗳𝗲𝘁𝘆 𝗰𝗵𝗲𝗰𝗸

Cómo OpenAI y Anthropic diseñan sistemas de IA

Cómo OpenAI y Anthropic diseñan sistemas de IA

OpenAI descubre que pequeñas dosis de entrenamiento beneficioso refuerzan la seguridad de la IA