为什么搜索引擎无法访问暗网?

信息安全 暗网 搜索引擎
2021-08-21 21:24:03

为什么谷歌、雅虎和必应等搜索引擎无法访问暗网并将其内容存档以显示在结果中?

1个回答

假设您正在谈论 Tor 隐藏服务,那么答案是它们可以,但只是间接的。有各种“门户”站点提供了通往隐藏服务的门户。这些网关是具有常规域的普通网站,但运行的是tor2web软件,该软件使用 Tor 客户端在非 Tor 用户和 Tor 用户之间中继流量(但请注意,它们不提供匿名性)。这些可以随意索引。

Tor隐藏服务不经常被索引的原因有几个:

  • 正如其他人之前指出的那样,它非常脱节。很少有网站相互链接,限制了爬虫查找新网站和新页面的能力。这就像 90 年代的开放互联网。
  • 它使用自己的协议,因此如果没有门户/网关站点,它们将无法连接。.onion尝试在普通浏览器中连接到域。你会看到它甚至无法解决。
  • 那里没有那么多隐藏的服务。基于对术语的误解,它是“巨大的”的神话是没有根据的。实际上,它真的很小。
  • 出于法律原因,某些站点被门户/网关站点阻止,因此只能使用 Tor 协议访问它们。由于搜索引擎爬虫不使用此功能,因此他们无法访问这些网站。

没有像常规域(根名称服务器)那样的隐藏服务的单一“数据库”。隐藏服务基于服务器公钥的编码、截断散列。客户端使用服务的域名并在半公开数据库中查找隐藏服务的描述符,该数据库包含其公钥和引入点列表(由服务器选择的中继)。客户端选择一个随机中继作为集合点,并将该中继的 ID 通过引入点发送到隐藏服务。然后,服务器和客户端通过它们自己的三跳电路通过集合点会面。

通过复杂的协议,客户端和服务器因此设法形成连接,而无需透露他们的真实 IP。由于该域没有解析到的 IP 地址,因此常规搜索引擎无法使用带有 TCP/IP 的标准 HTTP 访问它。为了让搜索引擎爬虫连接到这些站点,它必须使用此协议。这对他们来说不是很实用。