数据挖掘 - 将权重引入谱聚类 - 吾爱随笔录 - 问答

将权重引入谱聚类

数据挖掘聚类

2022-02-10 19:46:58

假设我有一个带有点的数据集 $x_i$ 和相异性度量 $d_{ij}$ 每对之间，以及一个重量 $w_{ij}$ 这证明了这种差异的质量。我有两个问题：

第一个是在进行谱聚类时如何引入权重。就像在 Shi-Malik、Ng-Jordan-Weiss 版本中一样，仅使用距离。
第二个是我的差异度量有时不存在。在这些情况下，它的权重为零。如何在算法中引入这些案例？如果我知道如何介绍它们，我想零权重可以解决问题。

我的一个想法是将相似转换执行为：

s_{i j} = w_{i j} e^{- \frac{d_{i j}^{2}}{σ^{2}}}

$s_{ij} = w_{ij} e^{-\frac{d^2_{ij}}{\sigma^2}}$ 但我觉得这没有意义，因为重量应该反映度量的重要性，而不是度量本身。

数据不是欧几里得，所以我只能使用这种差异度量。任何参考表示赞赏。

1个回答

谱聚类中发生的事情只是根据定义矩阵的属性在数据中找到一些块。如果是相似性，您将获得相似的数据点。

第一个是在进行谱聚类时如何引入权重。就像在 Shi-Malik、Ng-Jordan-Weiss 版本中一样，仅使用距离。

不要混淆。您需要做的只是介绍可以加权的相似性度量。只需将所有权重插入经典光谱聚类版本（Shi-Malik 或 Ng 或其他），就可以了！

第二个是我的差异度量有时不存在。在这些情况下，它的权重为零。如何在算法中引入这些案例？如果我知道如何介绍它们，我想零权重可以解决问题。

我认为这应该不是什么大问题。只需输入零并使用模拟数据尝试您的算法，看看会发生什么。如果不起作用，请尝试通过一些统计指标（例如数据的平均值）填充缺失值并查看结果。

请写下关于它是如何工作的评论。

祝你好运：）

其它你可能感兴趣的问题

上一篇如何使用维基百科增加 wordnet 的覆盖率下一篇给定几个系列如何预测突发的持续时间