何时使用加权欧几里得距离以及如何确定要使用的权重?

机器算法验证 距离函数
2022-02-03 07:12:39

我有一组数据,其中每个数据包含n不同的措施。对于每个度量,我都有一个基准值。我想知道每个数据与基准值的接近程度。

我想过像这样使用加权欧几里得距离:

dx,b=(i=1nwi(xibi)2))1/2

在哪里

xi是特定数据的第 i 个度量的值

bi是该度量的相应基准值。

wi是我将附加到第 i 个度量值之间的权重值,具体如下:

0<wi<1i=1n1

然而,根据这个文档,我发现要使用的权重是第 i 个度量的方差的倒数。我认为这种加权不会说明我对每项措施的重视程度。

所以:

  1. 是否有方法可以提出一组反映观察者对度量的相对重要性的权重,或者观察者可以为权重分配任意值?

  2. 使用加权欧几里得距离来解决这个问题是否合适?

1个回答

标准化权重

您拥有的设置是Mahalanobis distance的变体。所以当w是每个测量值方差的倒数,您实际上是将所有测量值放在同一尺度上。这意味着您认为每个变量的变化同样“重要”,但有些变量是以无法立即比较的单位衡量的。

重要性权重

您可以自由地将任何您喜欢的东西作为权重,包括“重要性”度量(尽管如果度量单位不同,您可能希望在重要性加权之前进行标准化)。

一个例子可能有助于澄清问题:考虑估计政治行为者之间的意识形态“距离”的想法。在这个应用程序中xb可能是两个演员的位置i-第一个问题,和wi该问题的突出性。例如,bi可能是某个维度上的现状立场,不同演员的立场不同。在这个应用程序中,人们肯定更愿意衡量而不是断言显着性和位置。无论哪种方式,如果根据您的第一个方程计算,较大的权重将使非显着问题的差异对参与者之间的整体距离影响较小。还要注意,在这个版本中,我们隐含地假设位置之间没有相关的协方差,这是一个相当强的主张。

现在关注问题 2:在应用程序中,我刚刚描述了权重和距离在博弈论假设中关于传递偏好结构等的理由。最终,这些是以这种方式计算距离“合适”的唯一原因。没有它们,我们只有一堆服从三角不等式的数字。

权重作为隐式测量

在协方差主题上,将您的问题视为确定距离具有实质性意义的相关子空间之一可能会有所帮助,前提是您的许多测量实际上测量了类似的事物。测量模型,例如因子分析,将通过加权组合将所有内容投影到可以计算距离的公共空间中。但是,再一次,我们必须知道你的研究背景才能说明这是否有意义。