机器算法验证 - 为什么基本假设检验侧重于均值而不是中位数？ - 吾爱随笔录

为什么基本假设检验侧重于均值而不是中位数？

机器算法验证假设检验意思是推理中位数

2022-02-11 23:50:12

在基本的本科统计学课程中，学生（通常？）被教导对总体平均值进行假设检验。
为什么重点是均值而不是中位数？我的猜测是，由于中心极限定理，测试平均值更容易，但我很想阅读一些有根据的解释。

3个回答

因为艾伦·图灵是在罗纳德·费舍尔之后出生的。

在过去，在计算机出现之前，所有这些东西都必须用手来完成，或者充其量只能用我们现在所说的计算器来完成。可以通过这种方式进行比较均值的测试 - 这很费力，但可能。以这种方式测试分位数（例如中位数）几乎是不可能的。

例如，分位数回归依赖于最小化一个相对复杂的函数。这不可能手动完成。编程是可能的。参见例如Koenker或Wikipedia。

与 OLS 回归相比，分位数回归的假设更少，并提供更多信息。

我想在 Harrell 和 Flom 给出的正确理由中添加第三个理由。原因是我们使用欧几里得距离（或 L2）而不是曼哈顿距离（或 L1）作为接近度或误差的标准度量。如果一个人有许多数据点并且想要一个数字来估计它，一个明显的概念是找到最小化“错误”的数字，该数字在所选数字和构成数据的数字。在数学符号中，对于一个给定的误差函数 E，我们想要找到。如果将 E(x,y) 取为 L2 范数或距离，即 $x_1, \ldots x_n$ $\theta$ $min_{\theta \in \Bbb{R}} (E(\theta,x_1, \ldots x_n) = min_{\theta \in \Bbb{R}}(\sum_{i=1}^{i=n} E(\theta,x_i))$ $E(x,y) = (x-y)^2$ 那么在所有上的最小化器就是平均值。如果取 L1 或曼哈顿距离，则所有上的最小者是中位数。因此，平均值是自然的数学选择——如果使用 L2 距离！ $\theta \in \Bbb{R}$ $\theta \in \Bbb{R}$

通常选择平均值而不是中位数不是因为它更具有代表性、稳健或有意义，而是因为人们将估计量与估计量混淆了。换句话说，有些人选择总体均值作为感兴趣的数量，因为对于正态分布，样本均值比样本中位数更精确。相反，他们应该像您所做的那样，更多地考虑感兴趣的真实数量。

一个侧边栏：我们有一个总体中位数的非参数置信区间，但没有非参数方法（可能除了数值密集型经验似然法）来获得总体均值的置信区间。如果您想保持无分布，您可能会专注于中位数。

请注意，中心极限定理远没有看起来那么有用，正如本网站其他地方所讨论的那样。它有效地假设方差是已知的或者分布是对称的并且具有使得样本方差是分散的竞争估计量的形状。

其它你可能感兴趣的问题

上一篇什么会导致 PCA 恶化分类器的结果？下一篇为什么逗号是 CSV 文件中的错误记录分隔符/分隔符？