用于 AI 的 LLM 抓取器甚至渴望抓取 Debian 的持续集成”CI”数据。由于 LLM 抓取器对开放网络的持续滥用,Debian CI 基础设施正在限制通过其 Web 服务器资源被机器人/抓取器猛击的公开可访问数据。
代表 Debian CI 团队的 Paul Gevers 概述了他们为应对 ci.debian.net 资源上的所有抓取器流量所需要采取的一些步骤。首先,除非你是经过身份验证的用户,否则该网站不再公开可浏览。他们现在必须将此信息设为受保护状态,以帮助抵御所有机器人/抓取器流量。尽管直接链接到测试日志文件仍然允许,以方便使用。

另一个变化是添加基于 fail2ban 的防火墙来解决滥用流量模式。这导致在最初发现一些合法的 Debian 贡献者被阻止访问 Debian CI 门户后进行了更改。他们认为现在他们已经为这个 fail2ban 防火墙找到了一个很好的平衡点,既能避免误触发真实用户,又能将 LLM 抓取器挡在外面。
有关 Debian CI 团队因 LLM 抓取器在公开网络上疯狂活动而导致的这些近期问题的更多详情,可以通过这个团队状态更新找到。
转自 Debian’s CI Data No Longer Publicly Browseable Due To LLM Scrapers / Bot Traffic – Phoronix
Linuxeden开源社区