带有标记的网络安全问题的日志分析数据集

数据挖掘 数据集 数据 异常检测
2022-02-28 15:19:27

我正在寻找一个带有标记为网络安全问题的日志文件的数据集。当我试图建立一个网络安全日志分析模型时,对日志的类型没有偏好,但对数据中是否存在已知的网络安全问题有偏好。

目前,我能够找到的日志数据集(HDFS、BGL)有异常,这些异常不是网络安全问题,而是执行流程错误。我还发现了大量的网络数据,例如https://vizsec.org/data/,但它们包含网络流量而不是日志。此外,我发现日志数据集实际上存在网络安全问题,但数量太少,无法训练模型。

了解如何大量生成这样的数据集也很有帮助。

2个回答

参考您发现的少量数据,要么对其进行扩充,要么在其之上应用交叉验证。

否则在https://datasetsearch.research.google.com/中查找您的预期数据

看看这是否有帮助 -公开可用的数据集

如果数据不足,也可以使用 SMOTE 技术。