我正在尝试使用机器学习进行安全事件分类。我的目标是预测特定事件的结果(真阳性或假阳性)。一个事件中有一组变量,称为 observables。这些可以是 url、IP 地址、文件哈希等(总共 8 种类型)。但是,一个事件可能包含少量的可观察对象,也可能包含大量的。由于我想根据这些可观察值预测结果,因此我的特征大小在长度上有所不同 - 在 1 到 2500 之间。这在数据集的示例中:
['user1', '1.1.1.1', 'explorer.exe', NULL, NULL, NULL ...]
['google.com', 'msword.exe', NULL, NULL, NULL ...]
['user3', '1.1.1.9', 'explorer.exe', 'e0d123e5f316bef78bfdf5a008837577', 'http://google.com, NULL ...]
我该如何处理这种情况?我想尝试分类以及神经网络进行比较。
编辑
我最终使用了词袋方法,因为我提到的“可观察对象”可以解释为文档中的单词。从那里我的案例是一个相对已知的文本分类问题,我使用朴素贝叶斯算法和哈希向量化取得了很好的结果。