Cloudflare推出新工具，阻止AI机器人非法爬取数据

要点速达👈

🆕 Cloudflare推出新工具，防止AI机器人非法爬取数据。
🛡️ 新工具优化了自动机器人检测模型，提升识别能力。
🚫 多数AI爬虫不遵守robots.txt文件规则。
📊 全球前1000网站中约26%封锁了OpenAI的机器人。
🔍 AI搜索引擎Perplexity被指控冒充合法访问者爬取内容。

数智朋克讯，知名云服务提供商Cloudflare推出了一款新的免费工具，旨在防止AI机器人未经许可爬取其平台托管的网站数据，用于训练AI模型。尽管包括谷歌、OpenAI和苹果在内的一些AI供应商允许网站所有者通过修改robots.txt文件来阻止数据爬取，但Cloudflare指出，并非所有AI爬虫都遵守这一规则。

在其官方博客中，Cloudflare表示：“客户不希望AI机器人访问他们的网站，尤其是那些不诚实的机器人。我们担心，一些企图规避规则获取内容的AI公司将持续调整以逃避机器人检测。”为解决这一问题，Cloudflare分析了AI机器人和网络爬虫的流量，并优化了自动机器人检测模型。

这些模型考虑了多种因素，包括AI机器人是否试图通过模仿使用Web浏览器的外观和行为来规避检测。Cloudflare指出：“当恶意行为者试图大规模爬取网站时，他们通常使用我们可以指纹识别的工具和框架。基于这些信号，我们的模型能够适当地标记来自规避型AI机器人的流量。”

Cloudflare还设置了一个表单，供主机报告涉嫌的AI机器人和网络爬虫，并表示将继续逐步加入黑名单。随着生成式AI的繁荣推动模型训练数据的需求，AI机器人的问题变得尤为突出。

许多网站对AI供应商未经通知或补偿就对其内容进行模型训练感到警惕，选择封锁AI爬虫和网络爬虫。据研究显示，全球排名前1000的网站中约有26%封锁了OpenAI的机器人；另有超过600家新闻出版商已封锁了此类机器人。然而，封锁并非百分之百有效的保护措施。一些供应商似乎忽略标准的机器人排除规则，以在AI竞赛中获得竞争优势。

例如，AI搜索引擎Perplexity最近被指控冒充合法访问者从网站爬取内容，而OpenAI和Anthropic据称有时也忽略robots.txt规则。在上个月写给出版商的一封信中，内容许可创业公司TollBit表示，许多AI代理都在无视robots.txt标准。

Cloudflare的这款新工具可能会有所帮助，但前提是它们能够准确检测秘密操作的AI机器人。然而，这并不能完全解决发布者面临的问题，即如果封锁了特定的AI爬虫，可能会牺牲来自像谷歌AI概览这样的工具的转介流量。

Cloudflare推出新工具，阻止AI机器人非法爬取数据

数智资讯订阅