Đừng lặp lại dữ liệu: Zero Copy
Hầu hết các hệ thống hoạt động bằng cách tải dữ liệu xuống. Bạn yêu cầu thông tin từ một máy chủ, và máy chủ sẽ gửi lại một gói dữ liệu. Sau đó, bạn lưu trữ dữ liệu đó vào hệ thống của riêng mình.
Điều này tạo ra một vấn đề. Bạn sẽ gặp phải tình trạng dữ liệu bị trùng lặp. Bạn có thể giải quyết vấn đề này bằng một nguyên tắc gọi là Zero Copy.
Zero Copy là gì?
Zero Copy có nghĩa là bạn truy cập dữ liệu mà không cần di chuyển nó. Hãy tưởng tượng nó giống như việc mở một cửa sổ. Bạn nhìn thấy dữ liệu qua cửa sổ, nhưng dữ liệu vẫn ở nguyên vị trí ban đầu của nó. Bạn không cần phải mang dữ liệu về nhà mình để xem.
Cách ServiceNow sử dụng điều này:
Quản lý vận hành (Operations Management) yêu cầu dữ liệu từ nhiều nơi như SAP, AWS hoặc Snowflake. Thông thường, bạn sử dụng các đường ống ETL để di chuyển dữ liệu này. Việc này tốn thời gian và dễ gây ra lỗi.
Thay vào đó, ServiceNow sử dụng Virtual Data Fabric Tables. Nó chỉ truy vấn dữ liệu khi bạn yêu cầu. Hệ thống sẽ giữ dữ liệu trong bộ nhớ tạm thời. Khi bạn hoàn thành tác vụ, dữ liệu sẽ biến mất.
Lợi ích:
• Bạn không làm trùng lặp dữ liệu. • Bạn không cần đồng bộ hóa dữ liệu giữa các hệ thống. • Bạn giảm thiểu rủi ro bảo mật vì dữ liệu không tồn tại ở một vị trí thứ hai.
Những đánh đổi:
• Tốc độ: Bạn phụ thuộc vào tốc độ mạng. Nếu nguồn dữ liệu chậm, bạn sẽ phải chờ đợi. • Thời gian hoạt động (Uptime): Nếu hệ thống nguồn bị sập, bạn sẽ không thấy gì cả. Bạn không có bản sao lưu cục bộ. • Tải (Load): Mỗi yêu cầu của người dùng đều gửi một truy vấn trực tiếp đến hệ thống nguồn. • Chi phí: Các lệnh gọi API thường xuyên có thể trở nên đắt đỏ. • Báo cáo: Bạn không thể lập chỉ mục (index) dữ liệu này, vì vậy việc chạy các báo cáo phức tạp sẽ khó khăn hơn.
Khi nào nên sử dụng Zero Copy:
Hãy sử dụng nó khi chi phí di chuyển dữ liệu lớn hơn lợi ích của việc lưu trữ nó.
- Dữ liệu nhạy cảm: Giữ dữ liệu PII hoặc HIPAA ở một nơi duy nhất để giảm thiểu rủi ro.
- Nhu cầu thời gian thực: Sử dụng cho việc khắc phục sự cố IT, nơi mà dữ liệu cũ (stale data) sẽ trở nên vô dụng.
- Tra cứu thỉnh thoảng: Sử dụng để kiểm tra một con số ngân sách duy nhất thay vì đồng bộ hóa toàn bộ cơ sở dữ liệu.
- Tập dữ liệu khổng lồ: Sử dụng để xem bản tóm tắt của các nhật ký (logs) khổng lồ thay vì di chuyển hàng petabyte dữ liệu.
Nguồn: https://dev.to/syncrofosatron/dont-repeat-data-zero-copy-1ff0
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi
