在基本的本科统计学课程中,学生(通常?)被教导对总体平均值进行假设检验。
为什么重点是均值而不是中位数?我的猜测是,由于中心极限定理,测试平均值更容易,但我很想阅读一些有根据的解释。
为什么基本假设检验侧重于均值而不是中位数?
机器算法验证
假设检验
意思是
推理
中位数
2022-02-11 23:50:12
3个回答
我想在 Harrell 和 Flom 给出的正确理由中添加第三个理由。原因是我们使用欧几里得距离(或 L2)而不是曼哈顿距离(或 L1)作为接近度或误差的标准度量。如果一个人有许多数据点并且想要一个数字 来估计它,一个明显的概念是找到最小化“错误”的数字,该数字在所选数字和构成数据的数字。在数学符号中,对于一个给定的误差函数 E,我们想要找到。如果将 E(x,y) 取为 L2 范数或距离,即那么在所有上的最小化器就是平均值。如果取 L1 或曼哈顿距离,则所有上的最小者是中位数。因此,平均值是自然的数学选择——如果使用 L2 距离!
通常选择平均值而不是中位数不是因为它更具有代表性、稳健或有意义,而是因为人们将估计量与估计量混淆了。换句话说,有些人选择总体均值作为感兴趣的数量,因为对于正态分布,样本均值比样本中位数更精确。相反,他们应该像您所做的那样,更多地考虑感兴趣的真实数量。
一个侧边栏:我们有一个总体中位数的非参数置信区间,但没有非参数方法(可能除了数值密集型经验似然法)来获得总体均值的置信区间。如果您想保持无分布,您可能会专注于中位数。
请注意,中心极限定理远没有看起来那么有用,正如本网站其他地方所讨论的那样。它有效地假设方差是已知的或者分布是对称的并且具有使得样本方差是分散的竞争估计量的形状。
其它你可能感兴趣的问题