The Atlantic Công bố Cơ sở Dữ liệu Có thể Tìm kiếm về Âm nhạc được Sử dụng để Huấn luyện AI
Khoảng cách về tính minh bạch trong việc huấn luyện AI tạo sinh vừa được lấp đầy bởi một nỗ lực điều tra mang tính bước ngoặt. The Atlantic đã ra mắt một cơ sở dữ liệu công khai, có thể tìm kiếm, nhằm phơi bày quy mô khổng lồ của các bản nhạc có bản quyền đang được các mô hình trí tuệ nhân tạo nạp vào.
Hé lộ các Tập dữ liệu Khổng lồ: Hàng triệu Bản nhạc bị Phơi bày
Phóng viên điều tra Alex Reisner đã xác định được bốn tập dữ liệu chính hiện đang đóng vai trò là xương sống cho việc huấn luyện âm nhạc bằng AI. Quy mô của các kho lưu trữ này thật đáng kinh ngạc: hai trong số các tập dữ liệu lần lượt chứa 12 triệu và 9 triệu bản nhạc, trong khi hai tập nhỏ hơn chứa hơn 100.000 bài hát mỗi tập.
Tiết lộ này làm nổi bật một vấn đề mang tính hệ thống trong ngành công nghiệp AI, nơi một lượng lớn phương tiện truyền thông được tập hợp thành các tập huấn luyện mà không có sự cho phép rõ ràng từ các tác giả gốc. Cơ sở dữ liệu này cho phép bất kỳ ai cũng có thể tìm kiếm trong các bộ sưu tập này, bao gồm một phạm vi tài năng âm nhạc rộng lớn, từ các biểu tượng dòng nhạc chính thống như Lady Gaga, Bruce Springsteen và Radiohead đến các nhà soạn nhạc thử nghiệm như Hainbach và các nghệ sĩ nhạc điện tử như Aphex Twin.
Lỗ hổng Kỹ thuật: Vượt qua các Cơ chế Bảo vệ của Nền tảng
Phát hiện này tiết lộ một phương pháp lách luật kỹ thuật tinh vi được các nhà phát triển AI sử dụng để thu thập dữ liệu huấn luyện. Hầu hết các tập dữ liệu này không bao gồm các tệp âm thanh trực tiếp mà là danh sách các liên kết dẫn đến các nền tảng như YouTube và Spotify.
Để chuyển đổi các liên kết này thành dữ liệu huấn luyện có thể sử dụng được, các nhà phát triển sử dụng các công cụ quét (scraping) tự động được thiết kế để tải xuống âm thanh trực tiếp. Các công cụ này được chế tạo đặc biệt để vượt qua đăng nhập, bỏ qua quảng cáo và lách qua chính các cơ chế—chẳng hạn như mô hình đăng ký thuê bao và tường phí (paywalls)—vốn cho phép các tác giả kiếm tiền từ tác phẩm của họ. Mặc dù các tập dữ liệu này có thể "có sẵn" trên internet, nhưng phương pháp trích xuất thường vi phạm các điều khoản dịch vụ của các nền tảng lưu trữ và làm suy yếu việc quản lý quyền kỹ thuật số (DRM) nhằm bảo vệ các nghệ sĩ.
Các Hệ lụy đối với Ngành và Vai trò Giám sát AI
Tác động của việc thu thập dữ liệu này không còn là lý thuyết; các ông lớn trong ngành đã thừa nhận việc sử dụng chúng. Cả Google và Stability AI đều đã xác nhận việc sử dụng các bộ dữ liệu này trong các bài nghiên cứu chính thức của họ. Sự xác nhận này nhấn mạnh sự căng thẳng ngày càng tăng giữa sự tiến bộ nhanh chóng của AI đa phương thức và các khung pháp lý quản lý sở hữu trí tuệ.
Bằng cách đăng tải thông tin này trên trang "AI Watchdog" của The Atlantic, ấn phẩm này đang cung cấp một công cụ quan trọng cho các nhà phát triển, chuyên gia pháp lý và nghệ sĩ để theo dõi cách tài sản trí tuệ của họ đang được sử dụng. Động thái này chuyển đổi cuộc thảo luận từ suy đoán sang bằng chứng thực nghiệm, tạo nền tảng cần thiết cho các vụ kiện bản quyền sắp tới và các cuộc tranh luận về quy định liên quan đến việc sử dụng hợp lý trong kỷ nguyên học máy.
Những điểm chính cần lưu ý
- Quy mô thu thập khổng lồ: Các bộ dữ liệu huấn luyện AI chứa hàng triệu bản nhạc, bao gồm hai bộ dữ liệu khổng lồ với 12 triệu và 9 triệu bài hát.
- Lách các điều khoản: Các nhà phát triển sử dụng các công cụ tự động để vượt qua các biện pháp bảo vệ của YouTube và Spotify, trực tiếp tước đi doanh thu quảng cáo và phí đăng ký của những người sáng tạo.
- Trách nhiệm của doanh nghiệp: Các thực thể AI lớn, bao gồm Google và Stability AI, đã xác minh việc sử dụng các bộ dữ liệu này trong các nghiên cứu đã công bố của họ.