使用 KMeans 对 URL 进行分类:验证集群数量并可视化

数据挖掘 k-均值 绘图
2022-02-11 21:21:43

我对 NLP 和 DataScience 比较陌生,所以对于遗漏或类似的事情深表歉意。

我一直在尝试使用 KMeans 对包含跨越网站分类的多个关键字的 1000 个唯一 URL 列表进行分类。目的是了解算法如何将这些 URL 视为最佳匹配,并在一定程度上验证专家完成的分类练习。

第一步是对 URL 进行矢量化处理,获得包含 1416 个特征的数组。

我可以毫无问题地运行 KMeans,但这里的第一个挑战是:如何验证集群的数量。据我了解,可以使用 Elbow 算法完成,正确的数字应该是曲线发生的地方。就我而言,似乎没有曲线,而是每组中的项目数量逐渐减少。请参阅图像以了解 1 到 40 的范围。如果我必须看到曲线,我会说这是 17。

在此处输入图像描述

假设这个数字是正确的,我的下一个挑战是,我如何可视化集群以及如何理解任何异常值?

我认为使用 scatterPlot 会是一个好主意,但是对于我的数据集,这似乎不是一个选择。我仍然有一个包含 1464 个特征的数组,每行与所需的 2 个数据点相比。

关于如何进行的任何想法?

0个回答
没有发现任何回复~