我想通过计算每个单独维度的组件中位数来计算高维点集的中位数。由每个单独维度的中值组成的点就是高维点集的中值。
根据这本书,这不是一个好主意,因为中位数的一维概念并没有简单地将元素扩展到更高的维度。
为什么是这样?任何人都可以提供这种方法失败并给出无意义结果的例子吗?
我知道这个高维中位数不一定是点集的一个元素,但它仍然具有作为有意义的位置度量和对异常值具有鲁棒性的特性。
我想通过计算每个单独维度的组件中位数来计算高维点集的中位数。由每个单独维度的中值组成的点就是高维点集的中值。
根据这本书,这不是一个好主意,因为中位数的一维概念并没有简单地将元素扩展到更高的维度。
为什么是这样?任何人都可以提供这种方法失败并给出无意义结果的例子吗?
我知道这个高维中位数不一定是点集的一个元素,但它仍然具有作为有意义的位置度量和对异常值具有鲁棒性的特性。
基本概念是中位数将数据(或分布)分成两半,每半数相等(按计数或概率)。
即使在一维中,中位数也是有问题的。 发生聚类时,一组值可能在附近,另一组在远离 数据量(或概率)的微小变化可以将中值从一个集群转移到另一个集群。但是,至少,中位数总是可以位于靠近某些数据值或概率支持的位置。因此,我们不应该抱怨同一现象的多维示例。
根本问题是,坐标为边际中位数的点可能位于离任何数据值(或概率)不合理的位置。
这是三个维度的一个极端例子。 考虑一个九元素数据集,包括一个靠近的值,两个靠近值,以及三个靠近和 当值是比例时,通常会出现这样的数据:在这种情况下,立方体之外的任何东西都是没有意义的,角落附近的值(如在这个数据集中)是极端的。
这些数据位于单位立方体的四个角附近:
蓝色星暴表示数据位置。它们的大小反映了每个位置的数据量:您可以看到在后面、右边和顶部有大量的值。
您可以检查此数据集中坐标的中位数是否分别和。例如,第一个坐标的 9 个值中有 4 个等于,其他 5 个值接近因此它们的中值接近
因此,边际中位数的点为 但这与任何数据都不相近——事实上,它离任何一个数据都尽可能远。我们很难将这样的“中位数”解释为任何事物的中心。 所有数据都位于(相对较远)它的一侧。
对于替代方法,请参阅我们关于中位数的多元泛化的线程。