我计划为我的 ML 恶意软件检测模型收集一个良性数据集
我遇到的问题是找到良性 PE 文件,我只需要一个具有正常可执行文件数据集的源,我将使用 VT 扫描它们并提取良性文件,但我找不到任何有用的东西
如果那里什么都没有,那么至少有可能对 PE 下载器爬虫有用的最佳网站是什么?(这意味着它易于抓取并自动下载 .exe 文件而不会遇到问题)
使用下载网站的另一个问题是安装程序,考虑到他们的大部分文件都是安装程序,我需要先安装程序,有什么好的解决方案吗?是否有任何 AutoIT 脚本可以以某种方式安装所有类型的安装程序?
(我尝试查看有关在 [1] 之类的恶意软件检测中使用 ML 的调查,但似乎没有一篇论文发布任何有用的良性数据集,除了简单的 Windows 文件,任何人都可以收集并且小于 10k,而且数量非常少,例如1000,我需要收集一个大的良性数据集,超过 50,000 个良性文件,因为我的恶意软件数据集非常大)
[1] https://www.sciencedirect.com/science/article/pii/S0167404818303808