𝗖𝗮̂̀𝗻 𝗧𝗵𝘂 𝗛𝗼̂̀𝗶 𝗡𝗴𝗮̂𝗻 𝗦𝗮́𝗰𝗵 𝗧𝗵𝘂 𝗧𝗵𝗮̣̂𝗽 𝗗𝗮̣̂𝗶
Google quyết định số lượng URL mà nó sẽ thu thập dữ liệu trên trang web của bạn. Đây chính là ngân sách thu thập dữ liệu (crawl budget) của bạn. Nó bao gồm hai phần: khả năng thu thập dữ liệu (crawl capacity) và nhu cầu thu thập dữ liệu (crawl demand).
Khả năng thu thập dữ liệu phụ thuộc vào tốc độ máy chủ của bạn. Nếu máy chủ phản hồi nhanh, Google sẽ thu thập dữ liệu nhiều hơn.
Nhu cầu thu thập dữ liệu phụ thuộc vào nội dung của bạn. Nếu nội dung của bạn luôn mới mẻ và phổ biến, Google sẽ muốn xem nó thường xuyên hơn.
Hầu hết các trang web nhỏ không cần phải lo lắng về vấn đề này. Nếu bạn có ít hơn 10.000 trang, hãy tập trung vào một sitemap tốt thay thế.
Bạn chỉ cần hành động nếu bạn có:
- Trên 1 triệu trang duy nhất.
- Trên 10.000 trang thay đổi hàng ngày.
- Nhiều URL bị kẹt ở trạng thái "Discovered – currently not indexed" (Đã phát hiện – hiện chưa được lập chỉ mục) trong Search Console.
Ngân sách thu thập dữ liệu bị lãng phí thường đến từ các vấn đề về cấu trúc. Các vấn đề phổ biến bao gồm:
- Điều hướng theo thuộc tính (faceted navigation) và các tham số URL.
- Các chuỗi bộ lọc hoặc lịch vô tận.
- Lỗi Soft 404.
- Nội dung trùng lặp hoặc nội dung mỏng.
- Các chuỗi chuyển hướng dài.
- Thời gian phản hồi máy chủ chậm.
Hãy thực hiện các bước sau để khắc phục ngân sách thu thập dữ liệu của bạn:
- Hợp nhất các trang trùng lặp và sử dụng thẻ canonical.
- Sử dụng robots.txt để chặn các URL không quan trọng. Đừng dùng noindex cho việc này. Google phải thu thập dữ liệu một trang để thấy thẻ noindex, điều này vẫn gây lãng phí ngân sách.
- Trả về mã trạng thái 404 hoặc 410 cho các trang đã bị xóa.
- Cập nhật sitemap của bạn với ngày chỉnh sửa cuối cùng (lastmod) chính xác.
- Cải thiện tốc độ máy chủ để tăng khả năng thu thập dữ liệu.
Một số chuyên gia gợi ý việc xóa nội dung chất lượng thấp để thúc đẩy lưu lượng truy cập. Một nghiên cứu cho thấy mức tăng 67% sau khi xóa các bài viết cũ, không có lượt truy cập. Hãy cẩn thận. Việc xóa nội dung giúp cải thiện chất lượng và sự tập trung của trang web, nhưng nó không phải là một mẹo tăng trưởng được đảm bảo.
Thu hồi ngân sách thu thập dữ liệu là về hiệu suất. Nó đảm bảo Google tìm thấy các trang tốt nhất của bạn một cách nhanh chóng. Nó không trực tiếp thay đổi thứ hạng của bạn.
Hãy kiểm tra (audit) trang web của bạn trước khi xóa bất cứ thứ gì. Hãy "cắt tỉa" vì chất lượng, chứ không chỉ để đạt được một con số nào đó.
Nguồn: https://dev.to/mrtd/crawl-budget-reclamation-what-it-is-who-needs-it-and-the-pruning-playbook-139g