𝗜𝗳 𝗬𝗼𝘂𝗿 𝗩𝗲𝗰𝘁𝗼𝗿 𝗗𝗕 𝗦𝗲𝗲𝘀 𝗬𝗼𝘂𝗿 𝗗𝗮𝘁𝗮, 𝗬𝗼𝘂 𝗔𝗿𝗲 𝗥𝗲𝗻𝘁𝗶𝗻𝗴 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲

Private AI là một thuật ngữ thời thượng.

Các nhà cung cấp đặt biểu tượng ổ khóa lên mọi slide thuyết trình. Họ hứa hẹn về tính bảo mật ngay từ khâu thiết kế (security by design).

Nhưng có một vấn đề. Nếu vector database của bạn phải giải mã dữ liệu để tìm kiếm, thì AI của bạn không hề riêng tư. Nó đang bị lộ.

Trạng thái hiện tại của các vector database:

  • Dữ liệu của bạn được nhúng (embedded).
  • Các hệ thống phải nhìn thấy dữ liệu của bạn để hoạt động.
  • Các nhà cung cấp nói rằng họ không kiểm tra dữ liệu khách hàng.

Đó không phải là quyền riêng tư. Đó là đang đòi hỏi sự tin tưởng.

Các embeddings chứa đựng kiến thức nội bộ của công ty. Chúng nắm giữ ngữ cảnh và các mẫu dữ liệu nhạy cảm. Nếu các embeddings nằm ở trạng thái chưa giải mã trên máy chủ, một vụ vi phạm dữ liệu sẽ là thảm họa.

Nhiều người tin rằng bạn phải chọn giữa bảo mật và tốc độ. Họ nghĩ rằng không thể vừa có quyền riêng tư mạnh mẽ vừa có hiệu suất cao. Niềm tin này tồn tại vì hầu hết các hệ thống chỉ thêm lớp mã hóa lên trên cơ sở dữ liệu, thay vì tích hợp nó trực tiếp vào quá trình tìm kiếm.

Các đội ngũ thường chấp nhận đánh đổi để tiết kiệm chi phí. Họ chấp nhận độ chính xác thấp hơn để giảm chi phí tính toán.

Private AI thực thụ phải hoạt động theo cách khác. Một vector database riêng tư thực sự phải đảm bảo những điều sau:

  • Dữ liệu vẫn được mã hóa trước khi rời khỏi hệ thống của bạn.
  • Hệ thống tìm kiếm các embeddings mà không cần giải mã chúng.

Điều này chuyển đổi quyền riêng tư từ một tính năng thành một yêu cầu bắt buộc.

Sự tin tưởng không có khả năng mở rộng. Các hệ thống sẽ thất bại khi đội ngũ phát triển hoặc các cấu hình thay đổi.

Một hệ thống thực thụ sẽ loại bỏ khả năng bị lạm dụng. Nếu cơ sở dữ liệu không thể đọc được dữ liệu, một vụ vi phạm hay một lệnh trát tòa cũng sẽ thay đổi cục diện. Bạn sẽ ngừng đặt câu hỏi rằng mình tin tưởng nhà cung cấp đến mức nào. Bạn sẽ bắt đầu biết chắc rằng dữ liệu của mình đang an toàn.

Đừng hỏi một hệ thống nhanh như thế nào với 10 triệu vector nữa.

Hãy bắt đầu hỏi liệu hệ thống đó có bao giờ nhìn thấy dữ liệu của bạn hay không.

Quyền riêng tư dựa trên sự tin tưởng sẽ thất bại trong thế giới thực. Nếu cơ sở dữ liệu của bạn cần nhìn thấy dữ liệu để tìm kiếm, bạn chỉ đang thuê sự an tâm mà thôi.

Source: https://dev.to/reenas_27gb/if-your-vector-db-needs-to-see-your-data-to-search-it-youre-not-building-private-ai-youre-1843

Optional learning community: https://t.me/GyaanSetuAi