Các tính năng kiểm soát trình thu thập dữ liệu AI mới của Cloudflare

Lưu lượng truy cập website đang thay đổi.

Trước đây, các công cụ tìm kiếm thu thập dữ liệu trang web của bạn để giúp mọi người tìm thấy bạn. Đó là một thỏa thuận đơn giản. AI đã khiến điều này trở nên phức tạp hơn nhiều.

Một bot có thể thu thập dữ liệu trang của bạn để hiển thị trong kết quả tìm kiếm. Điều đó khác với việc một bot thu thập dữ liệu trang của bạn để huấn luyện một mô hình AI.

Cloudflare đang thay đổi cách bạn quản lý việc này. Vào ngày 1 tháng 7 năm 2026, tất cả khách hàng sẽ nhận được các tính năng kiểm soát lưu lượng AI mới. Điều này cho phép bạn phân loại lưu lượng truy cập thành ba nhóm:

  • Search: Các bot lập chỉ mục nội dung cho các công cụ tìm kiếm hoặc các câu trả lời AI.
  • Agent: Các bot thay mặt người dùng để hoàn thành một tác vụ.
  • Training: Các bot thu thập dữ liệu để huấn luyện hoặc tinh chỉnh các mô hình AI.

Sự chuyển dịch này biến khả năng hiển thị thành một quyết định về chính sách truy cập. Nó không còn chỉ là một quyết định về SEO nữa.

Nếu bạn điều hành một công ty SaaS, các trang công khai như tài liệu hướng dẫn, bảng giá và trung tâm trợ giúp sẽ tạo ra giá trị. Chúng giúp bạn thu hút và hỗ trợ khách hàng.

Bạn phải quyết định mức độ truy cập mà bạn muốn cho phép.

Câu hỏi trước đây là: Các công cụ tìm kiếm có thể tìm thấy chúng ta không? Câu hỏi mới là: Những hệ thống tự động nào nên sử dụng trang web của chúng ta, và với mục đích gì?

Đừng coi tất cả các bot AI đều giống nhau.

  1. Các bot tìm kiếm giúp người dùng tìm thấy sản phẩm của bạn. Việc chặn chúng có thể khiến bạn trở nên vô hình trong các kết quả tìm kiếm được hỗ trợ bởi AI.

  2. Các AI agent có thể hữu ích. Một agent có thể truy cập trang bảng giá của bạn để giúp người dùng so sánh các gói dịch vụ. Tuy nhiên, bạn phải quyết định xem các agent này có cần xác thực hoặc giới hạn tốc độ (rate limits) hay không.

  3. Các bot huấn luyện mang lại ít giá trị trực tiếp hơn. Chúng sử dụng nội dung của bạn để xây dựng các mô hình nhưng có thể không dẫn người dùng quay lại trang web của bạn. Nhiều công ty chọn cách chặn chúng.

Một chính sách thông minh sẽ như sau:

  • Cho phép các bot tìm kiếm lập chỉ mục các trang sản phẩm và trang trợ giúp của bạn.
  • Cho phép các agent theo chỉ dẫn của người dùng truy cập vào tài liệu công khai.
  • Chặn hoặc cấp phép truy cập cho các bot huấn luyện.
  • Giữ cho tất cả các khu vực sản phẩm yêu cầu xác thực luôn được bảo vệ.

Hãy kiểm tra lưu lượng truy cập của bạn thường xuyên. Hãy xem xét các danh mục trình thu thập dữ liệu, tải máy chủ và khả năng hiển thị tìm kiếm.

Mục tiêu không phải là chặn mọi bot. Mục tiêu là kiểm soát những gì chúng làm.

Nguồn: https://dev.to/ascentinnovate/cloudflares-new-ai-crawler-controls-turn-visibility-into-an-access-policy-decision-2118