Cloudflare 指控 Perplexity 恶意规避抓取,AI 时代的数据信任危机

Cloudflare 指控 Perplexity 恶意规避抓取,AI 时代的数据信任危机

摘要:随着 Cloudflare 公开指控 AI 搜索独角兽 Perplexity 存在系统性数据违规行为,互联网基础设施巨头与 AI 应用层新贵之间的矛盾彻底爆发。这不仅是一次关于 robots.txt 协议的技术博弈,更揭示了在数据成为核心资产的当下,传统互联网“君子协定”的全面失效。Cloudflare 通...

bbuoooou
Nov 25, 202510 min read

摘要:
随着 Cloudflare 公开指控 AI 搜索独角兽 Perplexity 存在系统性数据违规行为,互联网基础设施巨头与 AI 应用层新贵之间的矛盾彻底爆发。这不仅是一次关于 robots.txt 协议的技术博弈,更揭示了在数据成为核心资产的当下,传统互联网“君子协定”的全面失效。Cloudflare 通过精密的“蜜罐测试”证实,Perplexity 正在使用未公开的“幽灵爬虫”规避防火墙,这一行为正将内容创作者与 AI 产业推向零和博弈的边缘。


一、 核心指控:系统性的合规规避

事件的起因源于大量网站管理员的异常反馈。尽管他们在 robots.txt 协议中明确部署了针对 Perplexity 官方爬虫(PerplexityBot 和 Perplexity-User)的 Disallow 指令,甚至在 Web 应用防火墙(WAF)层级实施了针对性拦截,但其受保护的内容依然频繁出现在 Perplexity 的 RAG(检索增强生成)搜索结果中。

Cloudflare 的安全团队介入后,发布了一份措辞严厉的技术分析报告。报告指出,Perplexity 的行为并非偶发的技术故障,而是蓄意的、经过设计的规避策略。其核心手段包括伪造用户代理(User-Agent)指纹、滥用住宅代理 IP 池,以“隐形”姿态窃取数据。

二、 调查取证:精密设计的“蜜罐实验”

为了获取确凿证据,Cloudflare 摒弃了被动监测,转而实施了一场基于“零信任”原则的主动取证实验。

  1. 构建隔离沙箱: 团队注册了一批从未公开、且未被任何主流搜索引擎(Google, Bing 等)索引的全新域名。这确保了所有访问流量均具有高度的定向性,排除了自然流量干扰。

  2. 部署双重防御层:

    • 协议层: 在根目录部署严格的 robots.txt,指令为 User-agent: * Disallow: /,即拒绝所有自动化程序的访问。

    • 网络层: 在 WAF 中配置高优先级的拦截规则,专门封锁 Perplexity 公开声明的 IP 段及 User-Agent。

  3. 诱导与验证: 研究人员直接向 Perplexity 的生成式引擎提问涉及这些“隐秘站点”的具体内容。

实验结果具有决定性: Perplexity 精准地复述了这些受双重保护站点内的独家内容。这意味着,其爬虫成功穿透了协议层与网络层的双重防线。

三、 技术解构:“幽灵爬虫”的伪装机制

通过对网络流量日志的深度取证分析,Cloudflare 还原了 Perplexity “幽灵爬虫”的运作机制,其技术手段具有明显的对抗性特征

1. User-Agent 的深度伪造

Perplexity 放弃了其官方声明的身份标识,转而模拟主流浏览器的指纹,意图混淆视听。

  • 官方声明的 UA(被拦截):

    Mozilla/5.0 ... compatible; Perplexity-User/1.0; ...
    注:包含明确的身份标识,易于识别和管理。

  • 捕获的“幽灵” UA(实际运作):

    Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 ... Chrome/124.0.0.0 Safari/537.36
    注:完全伪装成 macOS 上的 Chrome 124 版本浏览器,企图混入人类用户流量。

2. 基础设施层面的游击战

  • IP 欺骗与轮换: 攻击流量并非来自 Perplexity 公布的数据中心 IP 段,而是频繁轮换 ASN(自治系统编号),极有可能是利用了第三方住宅代理网络。

  • 高频请求负载: 监测数据显示,这类伪装爬虫的全球请求量高达 300万至600万次/天。这种规模的非授权抓取,不仅侵犯版权,更给目标服务器带来了巨大的带宽与计算成本压力。

四、 行业对比:OpenAI 的合规基准

为突显 Perplexity 行为的越界,Cloudflare 将其与 OpenAI 进行了横向对比测试。结果显示,OpenAI 遵循了严格的流量治理标准:

  • 职责隔离: 清晰划分了 GPTBot(训练用)、OAI-SearchBot(搜索用)和 ChatGPT-User(即时浏览),允许站长进行细粒度授权。

  • 严格遵循协议: 在相同的“蜜罐”测试中,OpenAI 的所有爬虫在检测到 robots.txt 禁令或 WAF 拦截后,均立即停止了访问尝试,未表现出任何伪装或绕过行为。

对比结论: OpenAI 试图在现行框架内寻求平衡,而 Perplexity 则选择了打破规则以获取竞争优势。

五、 深层危机:流量契约的崩塌与价值掠夺

此次技术摩擦的本质,是 AI 时代内容生产端与消费端价值交换体系的彻底失衡

Cloudflare CEO Matthew Prince 在其《内容独立日》倡议中指出的数据极具警示意义:互联网赖以生存的“爬取-索引-流量反哺”旧契约已死。AI 搜索引擎通过直接提供答案(Answer Engine),切断了原本流向内容创作者的流量管道。

  • 流量转化率暴跌: 根据 Cloudflare 的测算数据,相比于传统的 Google 搜索,内容创作者想要从 OpenAI 获取等量流量,难度增加了 750倍;而从 Anthropic(Claude)获取等量流量,难度更是激增至 30,000倍

  • 零和博弈: Perplexity 的行为被视为一种掠夺性策略——在未付费的情况下,不仅利用创作者的数据训练模型、生成答案,还通过伪装手段消耗创作者的服务器资源,却几乎不提供任何流量回报。

六、 展望:互联网协议的重塑时刻

Cloudflare 目前已采取强硬措施,将 Perplexity 移出“已验证机器人”白名单,并向所有客户(含免费版)开放了一键拦截功能。但这仅仅是防御的第一步。

Perplexity 援引“代表用户请求”作为无视 robots.txt 的理由,实则是对互联网基础协议发起的挑战。这迫使行业必须回答以下关键问题:

  1. 协议的效力: 诞生于 1994 年的 robots.txt 是否已无法适应 AI Agent 时代的复杂性?是否需要引入基于加密验证的新标准(如 ai.txt)?

  2. 合规的边界: 商业 AI 公司获取公共数据的合法边界在哪里?“代理用户访问”与“系统性数据抓取”的法律界定如何区分?

这场“猫鼠游戏”没有赢家,但它无疑加速了互联网规则的重建。如果缺乏新的利益分配机制与技术约束,内容创作者构建的数字世界,恐将被贪婪的算法逐步吞噬。

Comments (0)