皇上,还记得我吗?我就是1999年那个Linux伊甸园啊-----24小时滚动更新开源资讯,全年无休!

Debian 的 CI 数据因 LLM 抓取器/机器人流量而不再公开可浏览

用于 AI 的 LLM 抓取器甚至渴望抓取 Debian 的持续集成”CI”数据。由于 LLM 抓取器对开放网络的持续滥用,Debian CI 基础设施正在限制通过其 Web 服务器资源被机器人/抓取器猛击的公开可访问数据。

代表 Debian CI 团队的 Paul Gevers 概述了他们为应对 ci.debian.net 资源上的所有抓取器流量所需要采取的一些步骤。首先,除非你是经过身份验证的用户,否则该网站不再公开可浏览。他们现在必须将此信息设为受保护状态,以帮助抵御所有机器人/抓取器流量。尽管直接链接到测试日志文件仍然允许,以方便使用。

Debian 的 CI 数据因 LLM 抓取器/机器人流量而不再公开可浏览

另一个变化是添加基于 fail2ban 的防火墙来解决滥用流量模式。这导致在最初发现一些合法的 Debian 贡献者被阻止访问 Debian CI 门户后进行了更改。他们认为现在他们已经为这个 fail2ban 防火墙找到了一个很好的平衡点,既能避免误触发真实用户,又能将 LLM 抓取器挡在外面。

有关 Debian CI 团队因 LLM 抓取器在公开网络上疯狂活动而导致的这些近期问题的更多详情,可以通过这个团队状态更新找到。

转自 Debian’s CI Data No Longer Publicly Browseable Due To LLM Scrapers / Bot Traffic – Phoronix