Vụ rò rỉ dữ liệu tại Novo Nordisk phơi bày những rủi ro về AI
Novo Nordisk đã xác nhận một vụ tấn công mạng trong tuần này. Công ty đứng sau Ozempic và Wegovy đã bị mất dữ liệu IT nội bộ. Những kẻ tấn công đã lấy đi dữ liệu bệnh nhân đã được ẩn danh từ các thử nghiệm lâm sàng.
Thông tin bệnh nhân bị đánh cắp bao gồm:
- ID bệnh nhân và giới tính
- Năm sinh
- Các chỉ số sinh học và dữ liệu sức khỏe
- Các yếu tố lối sống như BMI và tình trạng hút thuốc
Họ cũng lấy đi dữ liệu của các chuyên gia y tế như tên, email và số điện thoại.
Một nhóm có tên Dragonfly tuyên bố rằng họ đã đánh cắp nhiều thứ hơn là chỉ hồ sơ bệnh nhân. Họ khẳng định đã lấy được:
- Một mô hình AI đã được huấn luyện nặng 16,7 GB có tên là NovoPert
- Một bộ dữ liệu huấn luyện sinh học độc quyền nặng 407 MB
- Toàn bộ mã nguồn của quy trình huấn luyện (training pipeline)
- Sơ đồ hạ tầng nội bộ và các cụm HPC
- Hơn 53 GB hình ảnh container (container images)
- Danh tính của các nhà phát triển và các URL GitHub riêng tư
Novo Nordisk vẫn chưa xác nhận những tuyên bố liên quan đến AI này. Không tìm thấy mã độc tống tiền (ransomware) nào.
Nếu những tuyên bố này là sự thật, các tài sản AI còn có giá trị hơn cả dữ liệu bệnh nhân. Những mô hình này đại diện cho nhiều năm nghiên cứu. Các đối thủ cạnh tranh hoặc tin tặc có thể sử dụng dữ liệu này để thu lợi nhuận khổng lồ.
Vụ rò rỉ này cho thấy hai vấn đề lớn đối với các công ty đang xây dựng AI:
Hạ tầng AI là một bề mặt tấn công khổng lồ. Các hình ảnh container bị rò rỉ thường chứa thông tin xác thực và sơ đồ mạng. Điều này cung cấp cho kẻ tấn công một bản thiết kế toàn bộ hệ thống của bạn.
Danh tính của nhà phát triển dẫn đến các cuộc tấn công chuỗi cung ứng. Khi kẻ tấn công biết nhà phát triển nào đang làm việc trên kho lưu trữ (repo) nào, chúng có thể nhắm mục tiêu vào họ một cách chính xác. Tấn công giả mạo (phishing) trở nên dễ dàng hơn nhiều khi mục tiêu đã được xác định.
Rò rỉ dữ liệu bệnh nhân là một vấn đề nghiêm trọng. Nhưng nếu các tuyên bố về việc đánh cắp AI là có thật, thì đây là một sự thay đổi trong cách thức hoạt động của tin tặc. Giờ đây, chúng đang nhắm trực tiếp vào sở hữu trí tuệ trong các mô hình AI.
Đội ngũ của bạn bảo mật hạ tầng huấn luyện AI như thế nào? Bạn coi đó là một khu vực nghiên cứu hay là một tài sản có tính bảo mật cao?
Optional learning community: https://t.me/GyaanSetuAi