如何找到差异度量的权重

机器算法验证 聚类 相似之处 监督学习 半监督学习
2022-03-04 19:14:54

我想为可用于聚类的差异度量学习(推断)属性权重。

我有一些“相似”对象对的示例(应该在同一个集群中),以及一些“不相似”对象对的 (不应该在同一个集群中)。每个对象都有许多属性:如果您愿意,我们可以将每个对象视为特征的维向量,其中每个特征都是非负整数。是否有技术可以使用此类相似/不相似对象的示例来估计它们的最佳特征权重以进行不相似性度量?(ai,bi)(ci,di)d

如果它有帮助,在我的应用程序中,专注于学习作为加权 L2 范数的差异度量可能是合理的:

d(x,y)=jαj(x[j]y[j])2.

其中权重是未知的,应该学习。(或者,某种加权余弦相似度度量也可能是合理的。)给定示例,是否有好的算法来学习这种度量的权重或者还有其他方法可以学习我应该考虑的相似性度量/相异性度量吗?αjαj

不幸的是,维度的数量非常大(数千或更多;它来自词袋特征)。但是,我确实有成千上万的例子。然后,我有数十万个要聚类的对象,因此从示例中进行概括以学习良好的差异度量非常重要。

我认为这属于半监督聚类的范畴,听起来它可能属于“相似性适应”的脉络,但我无法找到用于此目的的算法的清晰描述。

2个回答

这在机器学习的某些领域是一个大问题。我不像我想的那样熟悉它,但我认为这些应该让你开始。

鉴于您的数据是如此高维(并且可能是稀疏的?),您可能不需要任何过于非线性的东西。也许邻域成分分析是最好的起点?正如您在问题中建议的那样,它最接近加权L2

权重放在相似性度量中的特征上是等效的,因此数据集缩放ai1/wi

换句话说,您是在询问数据预处理和缩放。这太宽泛了,无法在一个问题中很好地回答。寻找:

  • 特征选择
  • 特征加权
  • 正常化
  • 降维
  • 其他投影技术
  • 其他距离函数
  • “学习排名”

有大量的文献,甚至是专门用于此的会议轨道。一些帮助您入门的方法: