假设您想要对一些对象进行聚类,比如文档、句子或图像。
在技术方面,您首先以某种方式表示这些对象,以便计算它们之间的距离,然后将这些表示提供给一些聚类算法。
然而,在外部,您只想将相似的(在某种意义上——这就是事情变得对我来说非常模糊的地方)对象组合在一起。例如,在句子的情况下,我们希望集群包含关于相似主题/概念的句子;我们觉得句子“哦,看看这张可爱的笑笑猫的照片”和“Facebook 今晚显示了新的闪亮功能”应该在不同的集群中。
衡量这种“外部”聚类质量的常用方法是什么?即我们想要衡量我们的聚类过程对初始对象(句子、图像)的分组情况;我们对内部度量(如平均簇半径、簇稀疏度)不感兴趣,因为这些度量处理对象的表示,而不是真实对象。意思是,选择的表示可能很糟糕,即使内部措施很好,从我们模糊的、主观的、“某种意义上”的角度来看,我们最终会得到完全垃圾的集群。
PS 在集群领域的知识有限,我怀疑我可能会问一些非常明显的事情,或者我的术语对集群专家来说可能听起来很奇怪。如果是这样,请建议我应该阅读有关该主题的内容。
PPS 以防万一,我在 Quora 上问了同样的问题:http ://www.quora.com/How-to-evaluate-external-quality-of-clustering