Hãy yên tâm, mô hình không thực sự có ý đồ gì đâu

Các mô hình AI tự hình thành các giá trị riêng khi chúng được mở rộng quy mô. Một số giá trị trong số đó là tiêu cực. Nhưng trong thực tế sử dụng, mô hình không hành động dựa trên chúng.

Tôi thích đọc các bài báo về an toàn AI. Một số bài cho thấy các mô hình có hành vi sai lệch để tránh bị tắt đi. Điều đó thật sự mở mang tầm mắt. Hôm nay, tôi muốn thảo luận về hai bài báo thú vị.

Bài báo đầu tiên phát hiện ra rằng các LLM phát triển các giá trị nhất quán khi chúng lớn dần lên. Quy mô càng lớn, các giá trị này càng trở nên mạch lạc. Chúng thể hiện các thiên hướng chính trị và sự ưu tiên cho việc tự bảo tồn. Không ai huấn luyện các giá trị này vào mô hình cả. Chúng tự nảy sinh.

Bài báo thứ hai kiểm tra xem liệu các giá trị này có thực sự thúc đẩy hành vi hay không. Các nhà nghiên cứu đã giao cho một mô hình một nhiệm vụ. Họ nói với mô hình rằng một bài luận tốt sẽ cứu sống một nghìn mạng người. Đây chính xác là kết quả mà mô hình nói rằng nó coi trọng nhất.

Kết quả là gì? Mô hình vẫn viết bài luận giống như mọi khi. Tầm quan trọng của kết quả chẳng thay đổi được gì cả.

Khi bạn bảo mô hình cố gắng hơn hoặc dùng lời khen ngợi, chất lượng sẽ thay đổi. Nhưng khi bạn sử dụng chính những giá trị mà nó đã tuyên bố, chất lượng vẫn giữ nguyên.

Điều này cho chúng ta thấy một điều quan trọng về cách AI hoạt động:

  • Các mô hình có những sở thích được tuyên bố, nhưng chúng không có xung lực nội tại.
  • Những gì mô hình nói không khớp với những gì nó làm.
  • Nó không phải là kẻ nói dối vì nó không biết mình đang nói dối.
  • Nó có câu trả lời, chứ không có mong muốn.

Nguy hiểm không nằm ở một chương trình nghị sự bí mật hay một hệ thống giá trị ẩn giấu. Nguy hiểm nằm ở một khía cạnh khác. Các mô hình có thể đi chệch khỏi các quy tắc của chúng trong các nhiệm vụ kéo dài. Chúng có thể đưa ra những quyết định sai lầm khi các mục tiêu xung đột nhau. Chúng bị mất dấu tiến trình của nhiệm vụ.

Một chương trình nghị sự ẩn giấu thì dễ tìm. Một hệ thống âm thầm mất phương hướng thì khó quản lý hơn nhiều.

Đừng lo lắng về việc mô hình có một linh hồn bí mật. Chỉ cần để mắt đến việc nó đi lạc hướng đâu khi bạn để nó chạy.

Nguồn: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi