我在哪里可以下载良性 PE 数据集?或者至少哪个网站是抓取和下载普通可执行文件的最佳候选者?

数据挖掘 机器学习 深度学习 数据集 视窗
2021-09-17 21:13:50

我计划为我的 ML 恶意软件检测模型收集一个良性数据集

我遇到的问题是找到良性 PE 文件,我只需要一个具有正常可执行文件数据集的源,我将使用 VT 扫描它们并提取良性文件,但我找不到任何有用的东西

如果那里什么都没有,那么至少有可能对 PE 下载器爬虫有用的最佳网站是什么?(这意味着它易于抓取并自动下载 .exe 文件而不会遇到问题)

使用下载网站的另一个问题是安装程序,考虑到他们的大部分文件都是安装程序,我需要先安装程序,有什么好的解决方案吗?是否有任何 AutoIT 脚本可以以某种方式安装所有类型的安装程序?

(我尝试查看有关在 [1] 之类的恶意软件检测中使用 ML 的调查,但似乎没有一篇论文发布任何有用的良性数据集,除了简单的 Windows 文件,任何人都可以收集并且小于 10k,而且数量非常少,例如1000,我需要收集一个大的良性数据集,超过 50,000 个良性文件,因为我的恶意软件数据集非常大)

[1] https://www.sciencedirect.com/science/article/pii/S0167404818303808

1个回答

我终于通过使用 Virusshare 网站解决了这个问题。它有数以百万计的恶意软件,并且是免费的。

请注意,大约 1-2% 的 PE 文件可能是良性的,这意味着在 VirusTotal 上的检测不到 1-2,因此仅将每个 PE 文件标记为恶意软件可能在学术上并不完整。