他们说的只是“取平均值”。这不是那么简单,对吧?

机器算法验证 估计 意思是
2022-03-15 01:40:17

我有一个熟人,他不学习统计,也不理解将数据相加并除以数据数量是汇总统计,即信息丢失。

例如,假设有些数据是某种测量值:x1,...,x100. 最常见的中心性度量是

μ^1=x¯=1100(x1+...+x100)
但是,如果数据有偏差,那么
μ^2=x~=12(x(50)+x(51))
是一个更好的估计器。然后,当然还有中频
μ^3=12(x(1)+x(100))
这是一个选择。

我的问题是:定义一些损失函数——为简单起见 L2-loss——如何判断哪个μ^是最好的?显然答案是特定于数据的,但例如,中端的 MSE 是多少?

2个回答

这不是您关于损失函数的问题的直接答案,但我是一名统计学家,我使用我所在领域的行话,而不是机器学习的行话。我将尝试回答这个问题:“哪个统计量是人口均值的最佳估计量?”

通常说算术平均值会导致信息丢失是不正确的。事实上,在某些情况下,可以证明算术平均值或它的某个函数包含与数据本身一样多的信息( Fisher 信息)。这是充分统计的概念,即对数据来说足够的数据摘要。

例如,如果您知道您的数据服从泊松分布,那么足够的统计量是T(X)=X1+...+Xn. 这只是数据的总和。对于知道方差的正态分布,算术样本均值是总体均值的充分统计量。也就是说,它包含所有信息,没有其他统计数据会做得更好。现在被授予,我们永远不会处于我们知道数据是正态分布并且恰好知道方差的情况。但这就是为什么我们有中心极限定理。即使对于偏斜数据,如果您真正关心的是总体均值,那么算术均值也是不错的选择,尤其是在您有大量观察值的情况下。所以为此,我想说在很多情况下,特别是当你有很多观察结果时,如果你关心的是总体平均值,那么算术平均值是最好的。

现在,如果你碰巧知道你的数据来自其他分布,也许是一些病态的负指数分布,那么你是对的,可能会有更好的足够统计数据。在这种情况下,足够的统计量μ是最小的观察。这是 Mukhopadhyay 在概率和统计推断中最喜欢的例子,你会发现所有你可以在其中演示的练习。

为了更笼统地回答您的问题,关于如何选择最佳统计数据:绘制数据。看它。想想它来自哪里以及它是如何收集的。想想你实际上试图推断的是什么,以及这些数据的收集方式是否真的适合这一点。想想你的数据采取的形式:它们是严格的整数数据吗?具有已知分母的比例?它们是否偏斜,如果是这样,对数正态分布是否可以很好地近似?如果必须,请选择一个似乎满足和警告的参数族。

捎带/建立道尔顿的回答:

您提出的问题是不完整的。“信息”作为一个统计概念,仅参考未知参数以及一些统计量(完整数据的函数)来定义——包括完整数据的退化情况。确切地说,没有任何数据统计信息比完整数据包含更多关于任何参数的信息,但有时统计信息与关于特定参数的完整数据一样多

您的直觉似乎是汇总统计减少了完整数据的信息内容,但同样,除非参考某些参数,否则即使完整数据也没有信息内容确实,如果您要估计正态总体的方差,则统计量S2(样本方差)没有关于μ(人口平均值)。但正如上面指出的,X¯包含有关的相同信息μ和完整的数据一样。

您的问题不完整,因为“信息”的直观、随意的定义与其数学定义大不相同。对于任何特定的现实世界场景,您当然必须判断什么是分布的适当假设(考虑偏度、支持等),因此,哪些特定的统计数据保留了您需要的信息。

作为旁白,X¯没有提供有关 Normal 方差的信息(μ,σ2) 分布,但是知道这对(X¯,S2)提供与两个参数的完整数据相同的信息。