Cloudflare 指控 Perplexity 恶意规避抓取，AI 时代的数据信任危机

摘要：
随着 Cloudflare 公开指控 AI 搜索独角兽 Perplexity 存在系统性数据违规行为，互联网基础设施巨头与 AI 应用层新贵之间的矛盾彻底爆发。这不仅是一次关于 robots.txt 协议的技术博弈，更揭示了在数据成为核心资产的当下，传统互联网“君子协定”的全面失效。Cloudflare 通过精密的“蜜罐测试”证实，Perplexity 正在使用未公开的“幽灵爬虫”规避防火墙，这一行为正将内容创作者与 AI 产业推向零和博弈的边缘。

一、核心指控：系统性的合规规避

事件的起因源于大量网站管理员的异常反馈。尽管他们在 robots.txt 协议中明确部署了针对 Perplexity 官方爬虫（PerplexityBot 和 Perplexity-User）的 Disallow 指令，甚至在 Web 应用防火墙（WAF）层级实施了针对性拦截，但其受保护的内容依然频繁出现在 Perplexity 的 RAG（检索增强生成）搜索结果中。

Cloudflare 的安全团队介入后，发布了一份措辞严厉的技术分析报告。报告指出，Perplexity 的行为并非偶发的技术故障，而是蓄意的、经过设计的规避策略。其核心手段包括伪造用户代理（User-Agent）指纹、滥用住宅代理 IP 池，以“隐形”姿态窃取数据。

二、调查取证：精密设计的“蜜罐实验”

为了获取确凿证据，Cloudflare 摒弃了被动监测，转而实施了一场基于“零信任”原则的主动取证实验。

构建隔离沙箱： 团队注册了一批从未公开、且未被任何主流搜索引擎（Google, Bing 等）索引的全新域名。这确保了所有访问流量均具有高度的定向性，排除了自然流量干扰。
部署双重防御层：
- 协议层： 在根目录部署严格的 robots.txt，指令为 User-agent: * Disallow: /，即拒绝所有自动化程序的访问。
- 网络层： 在 WAF 中配置高优先级的拦截规则，专门封锁 Perplexity 公开声明的 IP 段及 User-Agent。
诱导与验证： 研究人员直接向 Perplexity 的生成式引擎提问涉及这些“隐秘站点”的具体内容。

实验结果具有决定性： Perplexity 精准地复述了这些受双重保护站点内的独家内容。这意味着，其爬虫成功穿透了协议层与网络层的双重防线。

三、技术解构：“幽灵爬虫”的伪装机制

通过对网络流量日志的深度取证分析，Cloudflare 还原了 Perplexity “幽灵爬虫”的运作机制，其技术手段具有明显的对抗性特征：

1. User-Agent 的深度伪造

Perplexity 放弃了其官方声明的身份标识，转而模拟主流浏览器的指纹，意图混淆视听。

官方声明的 UA（被拦截）：
Mozilla/5.0 ... compatible; Perplexity-User/1.0; ...
注：包含明确的身份标识，易于识别和管理。
捕获的“幽灵” UA（实际运作）：
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 ... Chrome/124.0.0.0 Safari/537.36
注：完全伪装成 macOS 上的 Chrome 124 版本浏览器，企图混入人类用户流量。

2. 基础设施层面的游击战

IP 欺骗与轮换： 攻击流量并非来自 Perplexity 公布的数据中心 IP 段，而是频繁轮换 ASN（自治系统编号），极有可能是利用了第三方住宅代理网络。
高频请求负载： 监测数据显示，这类伪装爬虫的全球请求量高达 300万至600万次/天。这种规模的非授权抓取，不仅侵犯版权，更给目标服务器带来了巨大的带宽与计算成本压力。

四、行业对比：OpenAI 的合规基准

为突显 Perplexity 行为的越界，Cloudflare 将其与 OpenAI 进行了横向对比测试。结果显示，OpenAI 遵循了严格的流量治理标准：

职责隔离： 清晰划分了 GPTBot（训练用）、OAI-SearchBot（搜索用）和 ChatGPT-User（即时浏览），允许站长进行细粒度授权。
严格遵循协议： 在相同的“蜜罐”测试中，OpenAI 的所有爬虫在检测到 robots.txt 禁令或 WAF 拦截后，均立即停止了访问尝试，未表现出任何伪装或绕过行为。

对比结论： OpenAI 试图在现行框架内寻求平衡，而 Perplexity 则选择了打破规则以获取竞争优势。

五、深层危机：流量契约的崩塌与价值掠夺

此次技术摩擦的本质，是 AI 时代内容生产端与消费端价值交换体系的彻底失衡。

Cloudflare CEO Matthew Prince 在其《内容独立日》倡议中指出的数据极具警示意义：互联网赖以生存的“爬取-索引-流量反哺”旧契约已死。AI 搜索引擎通过直接提供答案（Answer Engine），切断了原本流向内容创作者的流量管道。

流量转化率暴跌： 根据 Cloudflare 的测算数据，相比于传统的 Google 搜索，内容创作者想要从 OpenAI 获取等量流量，难度增加了 750倍；而从 Anthropic（Claude）获取等量流量，难度更是激增至 30,000倍。
零和博弈： Perplexity 的行为被视为一种掠夺性策略——在未付费的情况下，不仅利用创作者的数据训练模型、生成答案，还通过伪装手段消耗创作者的服务器资源，却几乎不提供任何流量回报。

六、展望：互联网协议的重塑时刻

Cloudflare 目前已采取强硬措施，将 Perplexity 移出“已验证机器人”白名单，并向所有客户（含免费版）开放了一键拦截功能。但这仅仅是防御的第一步。

Perplexity 援引“代表用户请求”作为无视 robots.txt 的理由，实则是对互联网基础协议发起的挑战。这迫使行业必须回答以下关键问题：

协议的效力： 诞生于 1994 年的 robots.txt 是否已无法适应 AI Agent 时代的复杂性？是否需要引入基于加密验证的新标准（如 ai.txt）？
合规的边界： 商业 AI 公司获取公共数据的合法边界在哪里？“代理用户访问”与“系统性数据抓取”的法律界定如何区分？

这场“猫鼠游戏”没有赢家，但它无疑加速了互联网规则的重建。如果缺乏新的利益分配机制与技术约束，内容创作者构建的数字世界，恐将被贪婪的算法逐步吞噬。

Cloudflare 指控 Perplexity 恶意规避抓取，AI 时代的数据信任危机

一、核心指控：系统性的合规规避

二、调查取证：精密设计的“蜜罐实验”

三、技术解构：“幽灵爬虫”的伪装机制

1. User-Agent 的深度伪造

2. 基础设施层面的游击战

四、行业对比：OpenAI 的合规基准

五、深层危机：流量契约的崩塌与价值掠夺

六、展望：互联网协议的重塑时刻

Comments (0)

More to Read

日本10年期国债收益率1.88%首次超过中国1.83%

中产返贫是必然的吗

一个人最大的失败是什么？

一、 核心指控：系统性的合规规避

二、 调查取证：精密设计的“蜜罐实验”

三、 技术解构：“幽灵爬虫”的伪装机制

1. User-Agent 的深度伪造

2. 基础设施层面的游击战

四、 行业对比：OpenAI 的合规基准

五、 深层危机：流量契约的崩塌与价值掠夺

六、 展望：互联网协议的重塑时刻

Comments (0)

More to Read

日本10年期国债收益率1.88%首次超过中国1.83%

中产返贫是必然的吗

一个人最大的失败是什么？

一、核心指控：系统性的合规规避

二、调查取证：精密设计的“蜜罐实验”

三、技术解构：“幽灵爬虫”的伪装机制

四、行业对比：OpenAI 的合规基准

五、深层危机：流量契约的崩塌与价值掠夺

六、展望：互联网协议的重塑时刻