为了衡量点差,我们使用方差或标准偏差。方差和标准差使用均值来找出价差。
最近遇到了 MAD(中值绝对偏差)。 http://en.wikipedia.org/wiki/Median_absolute_deviation
为什么中值绝对偏差不像标准偏差那样受欢迎,尽管它看起来更稳健(对异常值免疫)?换句话说,为什么从中位数测量 SD 的工件不如从平均值测量 SD 的工件受欢迎?
为了衡量点差,我们使用方差或标准偏差。方差和标准差使用均值来找出价差。
最近遇到了 MAD(中值绝对偏差)。 http://en.wikipedia.org/wiki/Median_absolute_deviation
为什么中值绝对偏差不像标准偏差那样受欢迎,尽管它看起来更稳健(对异常值免疫)?换句话说,为什么从中位数测量 SD 的工件不如从平均值测量 SD 的工件受欢迎?
对异常值的鲁棒性是一把双刃剑:有时我们希望以一种对异常值鲁棒的方式来估计事物,这意味着我们不介意获得较大的异常值。在其他时候,我们希望避免出现较大的异常值,因此我们希望以一种对异常值不稳健的方式来估计事物。同样,对于散布测量,有时我们想要对异常值具有鲁棒性的东西,这样大的异常值就不会增加测量值。在其他时候,我们希望我们的传播度量通过体现更大的值来反映大型异常值的存在。
在决策理论中,此类问题是通过指定一个惩罚/损失函数来处理的,该函数会因您在估计数量时的错误而对您进行惩罚。两个常见的损失函数是绝对误差损失和平方误差损失(如下图所示,取自Jean-Paul的这个答案)。
绝对误差损失会根据您的估计与真实值的绝对偏差来惩罚您。这种形式的损失函数导致使用中位数进行估计。这种形式的损失函数对异常值是稳健的,因为异常值会产生与其大小成比例的惩罚。在这种情况下,价差衡量反映了对中心位置的特定估计的预期损失,预期损失是与估计的中心位置的绝对偏差的加权和。
平方误差损失会根据您的估计值与真实值的平方偏差来惩罚您。这种形式的损失函数导致使用均值进行估计。这种形式的损失函数对异常值很敏感,因为异常值贡献了与其平方偏差成比例的惩罚——这放大了大异常值的影响。在这种情况下,价差衡量反映了对中心位置的特定估计的预期损失,预期损失是与估计的中心位置的偏差平方的加权和。
关于中值绝对偏差和标准偏差之间的选择,这些相同的考虑也适用。前一种度量是代表预期绝对误差损失的散布度量,并且对异常值更稳健。在这种情况下,离群值不会体现在传播度量的大幅增加中。后者是代表预期平方误差损失的散布度量,并且对异常值更敏感。在这种情况下,异常值将体现在传播度量的大幅增加中。