𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Translated for your language. Read the original.

AI-assisted draft.

9 giờ trước1min read

OpenAI Cải thiện An toàn AI bằng RL

OpenAI đã tìm ra một cách mới để giúp AI an toàn hơn. Họ đã sử dụng một lượng nhỏ Học tăng cường (Reinforcement Learning - RL) để dạy cho các mô hình những đặc tính cụ thể. Những đặc tính này bao gồm tính xác thực, tính công bằng và sự trung thực.

Kết quả cho thấy mô hình đã cải thiện ở 44 trên tổng số 53 tiêu chuẩn đánh giá (benchmarks) về an toàn.

Điều gì làm cho phương pháp này trở nên khác biệt:

Nó sử dụng các đặc tính cụ thể thay vì một bản hiến pháp (constitution) bằng văn bản.
Nó khiến các mô hình khó bị thao túng bởi các câu lệnh (prompts) xấu hơn.
Nó có khả năng chống lại việc tinh chỉnh (fine-tuning) gây hại.
Nó giúp mô hình vẫn hữu ích trong khi ngăn chặn các hành vi xấu.

OpenAI gọi đây là sự kiên định có chọn lọc (selective persistence). Mô hình duy trì sự linh hoạt cho các tác vụ hữu ích nhưng chống lại sự điều hướng có hại.

Các nhà nghiên cứu đã sử dụng dữ liệu từ các lĩnh vực như y tế, luật pháp và khoa học. Họ nhận thấy rằng việc huấn luyện trên một chủ đề cũng giúp ích cho các lĩnh vực khác. Ví dụ, việc huấn luyện trên dữ liệu y tế đã cải thiện cách mô hình tránh sự lừa dối trong các chủ đề khác.

Điều này khác với Anthropic. Anthropic sử dụng một bộ quy tắc bằng văn bản được gọi là hiến pháp (constitution). OpenAI sử dụng các hành vi có thể đo lường được thông qua RL.

Khám phá này cho thấy các hành vi tốt có thể lan tỏa qua các lĩnh vực khác nhau. Điều này có thể thay đổi cách các công ty AI huấn luyện mô hình của họ trong tương lai.

Nguồn: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Continue reading

Mô phỏng AI trước khi ra mắt là phương thức kiểm tra an toàn mô hình mới

Mô phỏng AI trước khi ra mắt là bước kiểm tra an toàn mới

Cách OpenAI và Anthropic thiết kế các hệ thống AI

Cách OpenAI và Anthropic thiết kế các hệ thống AI

OpenAI phát hiện các liều lượng nhỏ huấn luyện có lợi giúp tăng cường độ an toàn cho AI