数据挖掘 - 带有标记的网络安全问题的日志分析数据集 - 吾爱随笔录

我正在寻找一个带有标记为网络安全问题的日志文件的数据集。当我试图建立一个网络安全日志分析模型时，对日志的类型没有偏好，但对数据中是否存在已知的网络安全问题有偏好。

目前，我能够找到的日志数据集（HDFS、BGL）有异常，这些异常不是网络安全问题，而是执行流程错误。我还发现了大量的网络数据，例如https://vizsec.org/data/，但它们包含网络流量而不是日志。此外，我发现日志数据集实际上存在网络安全问题，但数量太少，无法训练模型。

了解如何大量生成这样的数据集也很有帮助。