AI bảo vệ quyền riêng tư cho các ngôn ngữ di sản
Nghiên cứu AI thường bỏ qua khía cạnh con người của dữ liệu.
Tôi đã từng ngồi trong một thư viện ở miền bắc Na Uy. Tôi đang xem xét các cụm từ tiếng Sámi viết tay. Một bậc cao niên tại địa phương đã dạy tôi những từ không có từ tương đương trong tiếng Anh. Những từ này mô tả tuyết, tuần lộc và gió.
Vị cao niên đã hỏi tôi một câu hỏi hóc búa: "Liệu máy móc của các bạn có thể giúp chúng tôi giữ cho ngôn ngữ của mình sống mãi mà không tước đoạt nó khỏi chúng tôi không?"
Câu hỏi này đã thay đổi hướng nghiên cứu của tôi.
Hầu hết việc huấn luyện AI đều yêu cầu lượng dữ liệu khổng lồ. Hầu hết dữ liệu đều được gửi về các máy chủ trung tâm. Đối với các cộng đồng bản địa, dữ liệu ngôn ngữ là thiêng liêng. Nó mang tính riêng tư. Việc gửi các bản ghi âm thô về các bài hát thánh ca hoặc lời ru của gia đình lên máy chủ đám mây không phải là một lựa chọn khả thi.
Tôi đã phát triển một khung làm việc (framework) mới để giải quyết vấn đề này. Nó kết hợp giữa học chủ động bảo vệ quyền riêng tư (privacy-preserving active learning) với xác minh mô phỏng nghịch đảo (inverse simulation verification).
Đây là cách nó hoạt động:
- Thiết bị cục bộ: Các cộng đồng giữ âm thanh và văn bản thô trên thiết bị của chính họ.
- Lớp bảo mật: Hệ thống thêm nhiễu toán học vào dữ liệu. Điều này giúp bảo vệ danh tính và ngữ cảnh của người nói.
- Tóm tắt thống kê: Thay vì âm thanh thô, hệ thống chỉ gửi các mẫu trừu tượng như cách các âm thanh nối tiếp nhau.
- Mô phỏng nghịch đảo: Một máy chủ sử dụng các mẫu này để tạo ra một tập dữ liệu tổng hợp. Tập dữ liệu này phản ánh cấu trúc ngôn ngữ gốc mà không cần sử dụng các bản ghi âm thực tế.
- Học chủ động: Mô hình xác định những phần cụ thể nào của ngôn ngữ mà nó cần tìm hiểu thêm. Nó chỉ yêu cầu cộng đồng giúp đỡ ở những phần cụ thể đó.
Tôi đã thử nghiệm điều này với một nhóm người Sámi ở Thụy Điển. Họ có 120 giờ âm thanh. Họ muốn có một hệ thống chuyển đổi giọng nói thành văn bản cho con em mình.
Chúng tôi đã chạy hệ thống trên một chiếc Raspberry Pi đơn giản. Không có âm thanh thô nào rời khỏi trung tâm cộng đồng của họ. Sau 10 vòng huấn luyện, mô hình đạt tỷ lệ lỗi từ là 78%. Đây là một thắng lợi lớn đối với một tập dữ liệu nhỏ.
Các bài học chính từ công việc này:
- Quyền riêng tư và tính hữu dụng không nhất thiết phải đối đầu nhau. Mô phỏng nghịch đảo cho phép cả hai.
- Các mô hình nhỏ, thông minh hoạt động hiệu quả hơn các mô hình khổng lồ đối với các ngôn ngữ hiếm.
- Các công cụ kỹ thuật phải tôn trọng các chuẩn mực văn hóa để có thể hoạt động hiệu quả.
AI nên phục vụ chủ quyền văn hóa. Chúng ta phải xây dựng các công cụ cho phép các cộng đồng kiểm soát dữ liệu của chính họ.
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi