攻击者如何使用 robots.txt?

信息安全 Web应用程序
2021-08-10 01:59:22

我想了解攻击者如何使用 robots.txt 文件。我知道它可以包含路径和目录的列表。仅此而已,还是我们可以在其中找到更多信息?

4个回答

就这样。你所看到的robots.txt就是一切。

它对攻击者有用的是站点管理员有时robots.txt用来隐藏敏感信息。如果“ https://www.example.com/sensitive_info ”应该保持隐藏,它不应该被机器人抓取,所以它应该在robots.txt. 但是,将其放在那里也会将其暴露给攻击者。

Web 开发人员或 Web 管理员认为 robots.txt 只是告诉网络爬虫看什么和避免什么。这实际上是一个很好的部分。

但这就是问题所在。渗透测试者总是检查 robots.txt 以收集任何敏感信息或获取甚至难以猜测的路径信息。所以让 Pentesters 的工作更容易。

像这样的一条信息会让攻击者知道您正在使用哪种技术以及寻找什么路径。

User-Agent: *
Disallow: /extend/themes/search.php
Disallow: /themes/search.php
Disallow: /support/rss
Disallow: /archive/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/ 

这里 /wp-admin/ 是攻击者的兴趣所在。有时你会很容易找到路径,这对爬虫来说也很难!

甚至 nmap 也有脚本来检查与之相关的任何漏洞。

nmap -sV --script http-wordpress-enum <target>

甚至portswiggers也有一篇文章。请仔细阅读以了解从安全角度来看您应该在 robots.txt 中实际写入的原因和内容。 portswigger robots.txt kb

实施的一类攻击/robots.txt是对以前在域名下公开可用的信息档案的可用性的攻击。

投机者可以向域名的前所有者勒索赎金

当域名易手时,其新所有者可以重写/robots.txt以建议搜索引擎和归档服务不要索引该域名内来源的 Web 服务器上的路径。许多投机者会在域名过期后立即购买下拉列表中/的域名,切换到轻量级 Web 服务器上的停车通知和/robots.txt以下内容,以防止搜索引擎的爬虫使服务器超载流量:

User-agent: *
Disallow: /

但是,一旦 Internet Archive 的 Wayback Machine 服务归档了 HTML 文档,它就会使用 的当前内容/robots.txt,而不是网站归档时的内容,来确定是否将其提供给公众。这意味着域名的新所有者可能会重写/robots.txt以导致 Wayback Machine 拒绝访问档案,直到以前的所有者以高价从投机者那里买回域名。

网站所有者可以掩盖过去的政策声明

公司或政府机构接受新管理层后,可能会使以前管理层的政策声明难以或无法检索。布什政府曾多次被指控使用/robots.txt掩盖与美国在 2003 年和 2007 年军事介入伊拉克有关的文件(#1#2#3)。而在2016年巴拉克·奥巴马即将卸任美国总统之际,据报道,公众猜测即将上任的政府将试图抹去奥巴马政府提供的有关环保等对特朗普所在政党不具吸引力的信息。路透社的瓦莱丽·沃尔科维奇(Valerie Volcovici)为此原因,Internet Archive.gov在每学期末进行更深入的爬网。

Wayback Machine 改变了它的政策

当 Internet Archive 了解到这些赎金和内存漏洞攻击时,它改变了 Wayback Machine 解释来源电流的方式/robots.txt首先是在美国政府和军事网站上,后来在整个网络上相反,自 2017 年的某个时候起,Internet Archive 使用电子邮件地址让网站运营商请求将其排除在 Wayback Machine 之外。

如果您手动检查它,它会为您提供更多信息来检查。它告诉您的网络爬虫应该避免扫描哪些链接。