中位数的多维版本是什么

机器算法验证 多元分析 强大的 中位数
2022-01-21 10:09:54

中位数的多维版本是什么,它们的优缺点是什么?我承认这没有一个单一的答案,但我认为这是一个有用的问题,并且对其他人也有好处。

它有多稳定(即需要多少样本才能对其进行合理估计)是一个潜在的但不是必需的正反问题,即如果您知道所需的样本数量随着维度的每次增加而呈指数增长它在 10 维中有用,但在 200 维中实际上无用,知道这将很有用。(我有点希望他们所有人都拥有这一点,真的,因为在 200 个维度中有如此多的“自由”,它只需要无数个点就可以沿着这么多方向确定分布的基本中间)。

注意:在接受这个答案后发现了这个问题。我以前没有见过它,因为我没有意识到同时存在多变量分析和多变量标签。我不确定为什么几何中位数在那里是一个不受欢迎的答案(1 票且接近底部),但在这里却是一个受欢迎的答案。

1个回答

几何中位数是中位数向更高维度的推广

中位数的属性之一是它是与集合中所有其他点的距离最小的点,GM 推广了这个概念(使用欧几里得/L2 距离)。

关于鲁棒性,维基百科的文章提到:“几何中位数的击穿点为 0.5。也就是说,多达一半的样本数据可能会被任意破坏,而样本的中位数仍然会为该位置提供稳健的估计未损坏的数据。”

接下来,请注意,在一个维度上,最小化 L1 和 L2 距离是相同的,但在更高维度上是不同的。所以,不同的规范会导致不同的概括。据我所知,这篇论文表明 L1 距离泛化(他们简称为“最小距离和”估计量)也是稳健的。

所以看起来至少有两个有用的概括:L1(MSoD)和L2(GM)。

对于其他一些观点,请注意,还可以考虑最小化距离的平方。这实际上是算术平均值。