我想为可用于聚类的差异度量学习(推断)属性权重。
我有一些“相似”对象对的示例(应该在同一个集群中),以及一些“不相似”对象对的 (不应该在同一个集群中)。每个对象都有许多属性:如果您愿意,我们可以将每个对象视为特征的维向量,其中每个特征都是非负整数。是否有技术可以使用此类相似/不相似对象的示例来估计它们的最佳特征权重以进行不相似性度量?
如果它有帮助,在我的应用程序中,专注于学习作为加权 L2 范数的差异度量可能是合理的:
其中权重是未知的,应该学习。(或者,某种加权余弦相似度度量也可能是合理的。)给定示例,是否有好的算法来学习这种度量的权重?或者还有其他方法可以学习我应该考虑的相似性度量/相异性度量吗?
不幸的是,维度的数量非常大(数千或更多;它来自词袋特征)。但是,我确实有成千上万的例子。然后,我有数十万个要聚类的对象,因此从示例中进行概括以学习良好的差异度量非常重要。
我认为这属于半监督聚类的范畴,听起来它可能属于“相似性适应”的脉络,但我无法找到用于此目的的算法的清晰描述。