首先,我希望我在这里是正确的 StackExchange。如果没有,请道歉!
我目前正在处理大量的特征值向量。这些向量有数百万个(可能多达 2000 万个)。它们包含一些语言/句法特征,它们的值都是字符串。
因为大多数分类器不将字符串数据作为值处理,所以我将它们转换为二进制频率值,所以一个属性看起来像这样:
@attribute 'feature#value' numeric
每行的值要么是 1,要么不存在(所以请注意它是一个稀疏的ARFF 文件)。
问题是,有 250K 行,有超过 500K 的属性,所以,大多数算法都很难做到这一点。
有很多算法。我真的很好奇你会认为什么是合适的(最好是无人监督的,但任何东西都可以),如果你甚至有一些想法我可以如何提高性能。我可以在小数据子集上进行训练,但只有在使用大量数据(至少 700 万个事件)时,结果才会变得更好。
目前,我一直在使用 NaiveBayes 变体(Multinomial 和 DMNBText),它们确实是唯一能够以可接受的速度咀嚼数据的变体。
非常感谢。如果您需要更多信息,请告诉我。
干杯。