14% 的互联网实际上已经“死亡”——但并非如你所想(我们扫描了 1000 万个域名)

发布日期:2026-06-18 10:01:36   浏览量 :2
发布日期:2026-06-18 10:01:36  
2

最初发布于 crawlora.net

当你在生产环境中遇到一个失效的统一资源定位符(URL)时,你是否知道该域名是彻底消失了,还是反机器人系统只是屏蔽了你的爬虫?从失败的请求来看,它们的表现完全相同,但这是两种截然不同的故障,而大多数工具无法区分它们。

我们扫描了 DomCop 排名前一千万的域名,以查明热门网络中有多少实际上已经失效。简而言之:大约 14%,而不是你可能经常看到的约 27%。

失效和被屏蔽并非同一种故障

一个无法加载的域名失败的原因只有两种:

  • 它已消失。没有域名系统(DNS)记录,或者没有任何服务接受传输控制协议(TCP)连接。这是真正的失效。
  • 它仍然存活并在屏蔽你。真实的服务器向任何看起来像机器人的请求返回 403 或 429 状态码。

大多数“网络失效”研究将两者都计为失效。这是不正确的,因为针对每种情况的正确应对措施是相反的:

  • 失效的域名永远不会恢复。重试它——无论是轮换代理服务器还是升级客户端——都是浪费计算资源。
  • 被屏蔽的域名是存活的。它需要不同的客户端,而不是更多的重试。

具体数据

通过超文本传输协议(HTTP)探测每个域名,并将其分类为存活、重定向、被屏蔽或失效:

  • 14.1% 真正失效——绝大多数是域名系统(DNS)记录消失(占失效类别的 76%)。服务器已不存在。
  • 8.9% 被屏蔽——存活的服务器向自动化客户端返回 403 或 429 状态码。
  • 76.6% 存活,0.3% 重定向。

被广泛引用的“约 27% 的网络已腐烂”这一数据,混淆了被屏蔽但存活的服务器(以及 404/5xx 响应——这仍然是存活服务器在应答)与真正消失的域名。诚实地将它们分开后,真正失效的网络规模大约是人们假设的一半。

证明:相同域名,不同客户端

为了证明那 8.9% “被屏蔽”的域名确实是存活的,我们使用真实的 Chrome 传输层安全协议(TLS)/JA3 指纹 对它们进行了重新探测——这是一种 HTTP 客户端,它能够模拟 Chrome 确切的 TLS 握手和头部顺序(不是无头浏览器,不涉及 Canvas 或 WebGL)。

约 72,000 个被屏蔽的域名正常提供了内容。相同的统一资源定位符(URL),相同的网络——唯一“失效”的是那道墙。这使得被屏蔽率从 8.9% 降至 8.2%。

对于任何构建爬虫或链接检查器的人来说,结论是:当工具报告域名失效时,约 9% 的情况是部署了反机器人措施的存活服务器。NXDOMAIN/REFUSED → 失效,跳过它。403/429 → 存活,在标记为失效之前,使用真实的浏览器传输层安全协议(TLS)上下文重新检查。

网络的腐烂程度不均

失效率并不均匀。按国家代码顶级域名划分:

  • 中国的 .cn33% 失效
  • 德国的 .de7.6% 失效

存在 4 倍的差距。机构类顶级域名的表现也很糟糕——.gov 为 26%,.edu 为 22%——这与皮尤研究中心的发现相符,即政府和参考页面遭受最严重的链接腐烂问题。

著名的失效案例

伤亡名单均在数据之中:Grooveshark、Gfycat、del.icio.us、Yahoo Pipes、AddThis、DMOZ、OpenSolaris、GeoCities。这是社交网络和开发者网络二十年来的墓地。

开放数据集

每个域名及其两次探测结果均在 CC BY 4.0 许可下公开(每个域名的每次探测对应一行 JavaScript 对象表示法(JSON)数据:domaintldrankmode

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 订阅 数据