机器算法验证 - 如何找到差异度量的权重 - 吾爱随笔录

我想为可用于聚类的差异度量学习（推断）属性权重。

我有一些“相似”对象对的示例（应该在同一个集群中），以及一些“不相似”对象对的（不应该在同一个集群中）。每个对象都有许多属性：如果您愿意，我们可以将每个对象视为特征的维向量，其中每个特征都是非负整数。是否有技术可以使用此类相似/不相似对象的示例来估计它们的最佳特征权重以进行不相似性度量？ $(a_i,b_i)$ $(c_i,d_i)$ $d$

如果它有帮助，在我的应用程序中，专注于学习作为加权 L2 范数的差异度量可能是合理的：

d (x, y) = \sum_{j} α_{j} (x [j] - y [j])^{2} .

$d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2.$

其中权重是未知的，应该学习。（或者，某种加权余弦相似度度量也可能是合理的。）给定示例，是否有好的算法来学习这种度量的权重？或者还有其他方法可以学习我应该考虑的相似性度量/相异性度量吗？ $\alpha_j$ $\alpha_j$

不幸的是，维度的数量非常大（数千或更多；它来自词袋特征）。但是，我确实有成千上万的例子。然后，我有数十万个要聚类的对象，因此从示例中进行概括以学习良好的差异度量非常重要。

我认为这属于半监督聚类的范畴，听起来它可能属于“相似性适应”的脉络，但我无法找到用于此目的的算法的清晰描述。