我们的武器:
我正在尝试使用 k-means 和 Hadoop,由于各种原因(例如,帮助我赢得这场战争!),我被束缚在这些选项上。
战场:
我有文章,属于c类,其中c是固定的。我将文章的内容矢量化为TF-IDF特征。现在我正在运行一个朴素的 k-means 算法,它以c质心开始并迭代地开始对文章进行分组(即 TF-IDF 矩阵的行,您可以在这里看到我是如何构建它的),直到发生收敛。
特别说明:
初始质心:尝试使用每个类别中的随机数或每个类别中所有文章的平均值。
距离函数:欧几里得。
问题:
正如预期的那样,准确性很差,我可以通过为初始质心做出另一个选择或/并选择另一个距离函数来做得更好吗?
打印“你好数据科学网站!” :)