我有一个项目,用于比较不同州的 1910-2013 年出生姓名的 SSA 数据集的聚类技术。
我已经完成了在我的数据集上应用我的聚类技术,并且聚类的输出是每年各州的聚类。
现在我可以从我的结果中知道;哪些州的出生名彼此相近,哪些州不相近。通过查看
我希望得到有趣的结果来使我的项目报告变得有趣,哪些州的出生名称相似并不足以让阅读者对我的项目感到兴奋。
我的问题:
关于我的项目可以学到什么的任何想法?
如何显示聚类技术之间的比较?除了看到集群有多均匀之外?
我有一个项目,用于比较不同州的 1910-2013 年出生姓名的 SSA 数据集的聚类技术。
我已经完成了在我的数据集上应用我的聚类技术,并且聚类的输出是每年各州的聚类。
现在我可以从我的结果中知道;哪些州的出生名彼此相近,哪些州不相近。通过查看
我希望得到有趣的结果来使我的项目报告变得有趣,哪些州的出生名称相似并不足以让阅读者对我的项目感到兴奋。
我的问题:
关于我的项目可以学到什么的任何想法?
如何显示聚类技术之间的比较?除了看到集群有多均匀之外?
通常对某些特征执行聚类,然后使用其他特征(未用于聚类)之间的平均差异等特征来显示聚类的不同之处。说集群的不同仅仅在于集群中心和分配给它们的对象之间的距离较小(如在 k-means 中),这并不总是有意义的。
例如,您可以获取状态的其他特征(变量),然后在分配给每个集群的对象中平均每个特征。然后显示所有集群中这些变量的平均值条形图,以帮助解释集群的不同之处。您还可以测试跨集群的补充功能的显着不同方法。
对于问题 1,我觉得您可以对此进行大量研究。基本结论是哪些州在文化上彼此相似(物理上的接近会导致这种相似性)。每年都有一个“文化相似度分数”,您可以确定各州之间的连通性,看看重大事件是否会影响该国的连通程度……这里有很大的潜力,并强化了这样一种观念:在深入分析之前,您需要知道您要回答的问题。
至于两个,这有点棘手。我看到的视觉效果是每个状态在其中心都有一个节点,就像具有颜色编码连接器的状态一样。我看到的视觉效果类似于他们用于 scikit 学习站点进行亲和力传播的图表:
http://scikit-learn.org/stable/auto_examples/cluster/plot_affinity_propagation.html
要比较来自不同聚类技术的聚类结果,您可以使用 KNIME (www.knime.org) 中的 Entropy Scorer 节点。此节点重叠并比较不同技术的结果。最后的质量度量告诉您聚类的相似程度。
——罗莎莉亚