数据挖掘 - 针对大型数据集优化 Weka - 吾爱随笔录

首先，我希望我在这里是正确的 StackExchange。如果没有，请道歉！

我目前正在处理大量的特征值向量。这些向量有数百万个（可能多达 2000 万个）。它们包含一些语言/句法特征，它们的值都是字符串。

因为大多数分类器不将字符串数据作为值处理，所以我将它们转换为二进制频率值，所以一个属性看起来像这样：

@attribute 'feature#value' numeric

每行的值要么是 1，要么不存在（所以请注意它是一个稀疏的ARFF 文件）。

问题是，有 250K 行，有超过 500K 的属性，所以，大多数算法都很难做到这一点。

有很多算法。我真的很好奇你会认为什么是合适的（最好是无人监督的，但任何东西都可以），如果你甚至有一些想法我可以如何提高性能。我可以在小数据子集上进行训练，但只有在使用大量数据（至少 700 万个事件）时，结果才会变得更好。

目前，我一直在使用 NaiveBayes 变体（Multinomial 和 DMNBText），它们确实是唯一能够以可接受的速度咀嚼数据的变体。

非常感谢。如果您需要更多信息，请告诉我。

干杯。