我正在寻找一个带有标记为网络安全问题的日志文件的数据集。当我试图建立一个网络安全日志分析模型时,对日志的类型没有偏好,但对数据中是否存在已知的网络安全问题有偏好。
目前,我能够找到的日志数据集(HDFS、BGL)有异常,这些异常不是网络安全问题,而是执行流程错误。我还发现了大量的网络数据,例如https://vizsec.org/data/,但它们包含网络流量而不是日志。此外,我发现日志数据集实际上存在网络安全问题,但数量太少,无法训练模型。
了解如何大量生成这样的数据集也很有帮助。
我正在寻找一个带有标记为网络安全问题的日志文件的数据集。当我试图建立一个网络安全日志分析模型时,对日志的类型没有偏好,但对数据中是否存在已知的网络安全问题有偏好。
目前,我能够找到的日志数据集(HDFS、BGL)有异常,这些异常不是网络安全问题,而是执行流程错误。我还发现了大量的网络数据,例如https://vizsec.org/data/,但它们包含网络流量而不是日志。此外,我发现日志数据集实际上存在网络安全问题,但数量太少,无法训练模型。
了解如何大量生成这样的数据集也很有帮助。
参考您发现的少量数据,要么对其进行扩充,要么在其之上应用交叉验证。
看看这是否有帮助 -公开可用的数据集
如果数据不足,也可以使用 SMOTE 技术。