Cloudflare 设定截止日期,强制 AI 公司向出版商付费

Cloudflare 宣布了一项具有里程碑意义的政策转变,旨在将传统的搜索引擎爬取与 AI 训练及智能体(agentic)服务解耦。通过实施严格的新默认设置,这家边缘计算巨头旨在保护知识产权,并为网络出版商创建一个可持续的经济生态系统。

“混合用途”爬虫的终结

为了直接挑战当前的数据抓取现状,Cloudflare 已设定 2026 年 9 月 15 日为截止日期,以应对“混合用途”爬虫的兴起。这些机器人将传统的搜索索引与 AI 模型训练及智能体功能结合在一起。从该日期开始,Cloudflare 的默认设置将自动阻止这些混合爬虫访问任何托管广告的页面。

这一政策变更适用于所有 Cloudflare 新客户、现有客户创建的新站点以及所有当前的免费层级用户。其目标是迫使 AI 公司明确其意图:如果机器人想要为搜索索引网站,它将遵循一条路径;如果它想要摄取数据以训练大语言模型 (LLM),则必须遵循另一条路径——一条可能需要支付补偿的路径。

挑战搜索巨头的统治地位

这一决策背后的一个重要驱动因素是主要搜索引擎所拥有的不公平优势。Cloudflare 特别强调,全球最大的搜索引擎(普遍认为是 Google)目前获取的信息量大约是其 AI 竞争对手的“2 倍”。

虽然 Google 提供了 “Google Extended” 以允许出版商在不影响搜索可见性的情况下退出 AI 训练,但其旗舰产品 Googlebot 仍继续进行广泛的爬取,以支持 AI Overviews 等功能。Cloudflare 的干预旨在公平竞争,确保 AI 公司不能搭搜索引擎大规模索引能力的便车来免费训练其模型。

向“按需付费”模式迈进

除了单纯的屏蔽,Cloudflare 正在积极构建新内容经济的基础设施。该公司正在将其 “Pay Per Crawl” 市场演变为更复杂的 “Pay Per Use” 模式。在此框架下,出版商不仅可以针对获取数据的行为向 AI 公司收费,还可以针对内容实际产生价值时进行收费。

为了试点这一模式,Cloudflare 正与 Ceramic.ai 和 You.com 合作。通过这些合作伙伴关系,当出版商的内容出现在 Ceramic 的 AI 搜索结果中或当 You.com 访问优质内容时,出版商可以获得直接补偿。这一转变解决了当前互联网的一个关键低效问题:Cloudflare 的数据显示,超过 50% 的 AI 爬虫流量浪费在重复获取未更改的页面上,这一过程既消耗了出版商的带宽,也消耗了 AI 的计算资源。

为什么这对 AI 领域至关重要

随着互联网上的非人类流量现在已经超过了人类流量,“免费抓取一切”的时代正在撞墙。Cloudflare 的举措标志着向更加规范化和交易化的网络转型。对于 AI 开发人员来说,这意味着无摩擦、零成本数据获取的时代正在结束,必须与内容创作者建立更加透明和合作的关系,以确保数据的长期可用性。

核心要点

  • 默认屏蔽: 从 2026 年 9 月 15 日开始,Cloudflare 将默认阻止“混合用途”爬虫访问带有广告支持的页面。
  • 变现模式转变: Cloudflare 正在从 “Pay Per Crawl” 转向 “Pay Per Use” 模式,允许出版商根据内容价值向 AI 公司收费。
  • 效率提升: 新政策旨在减少目前浪费在重复获取未更改网页上的 50% AI 爬取流量。