机器算法验证 - 估计量和统计量有什么区别？ - 吾爱随笔录

估计量和统计量有什么区别？

机器算法验证术语估计者定义

2022-01-22 21:37:24

我了解到统计量是您可以从样本中获得的属性。取许多相同大小的样本，为所有样本计算该属性并绘制pdf，我们得到相应属性的分布或相应统计量的分布。

我也听说统计是用来做估计的，这两个概念有什么区别？

4个回答

定义

来自维基百科：

统计量[...] 是对样本某些属性（例如，其算术平均值）的单一测量。

和

[A]n估计器是一种规则，用于根据观察到的数据计算[潜在分布的]给定数量的估计值。

重要的区别是：

统计量是样本的函数。
估计量是与某个分布量相关的样本函数。

关于“数量”的含义，请参见下文。它只是分布的函数。

统计量不是估计量

估计量是添加了一些东西的统计量。要将统计数据转换为估计量，您只需说明要估计的目标数量。这令人困惑，因为您没有在统计数据中添加任何“真实”的东西，而只是一些意图。

要看到差异很重要，您必须意识到您不能仅针对统计数据计算估计量的属性（例如偏差、方差等）。要计算偏差，您必须找到统计数据给您的值与真实值之间的差异。只有估计器带有允许计算偏差的“真实值”。统计只是数据的一个函数，它没有对错之分。

基于相同统计量的不同估计量

您可以为同一统计量拼出不同的目标数量，从而产生不同的估计量。每个这样的估计器都有自己的偏差，尽管它们都（基于）相同的值，相同的统计数据。

您可以使用样本均值作为分布均值的估计量。该估计器具有零偏差。
您还可以使用样本均值作为分布方差的估计量。这个估计量对大多数分布都有偏差。

所以说“样本均值是无偏的”是没有意义的。当您使用它来估计分布均值时，样本均值是无偏的。但同时在用它来估计分布方差时是有偏差的。

分布数量和样本数量

数量是分布的函数。如果你只有一个分布，没有类，那么数量就是一个值（函数的域有一个元素）。

这里数量是指分布的某些属性，通常是未知的，因此必须进行估计。这与统计量相反，统计量是样本的属性，例如分布均值是您的分布数量，而样本均值是统计量（样本的数量）。

这个线程有点旧，但似乎维基百科可能已经改变了它的定义，如果它是准确的，它对我来说更清楚地解释了它：

“估计量”或“点估计”是一种统计量（即数据的函数），用于推断统计模型中未知参数的值。

因此，统计数据指的是数据本身以及使用该数据进行的计算。而估计器是指模型中的参数。

如果我理解正确，那么平均值是一个统计量，也可能是一个估计量。样本的平均值是一个统计量（样本总和除以样本大小）。假设样本是正态分布的，样本的平均值也是总体平均值的估计值。

如果（新的？）维基百科的引用是准确的，我会问@whuber 和其他真正了解这些东西的人。

“6”是估计器的一个例子。假设您的问题是，“将 x 映射到 y 的最佳线性函数的斜率是多少？” 你的答案可能是“6”。或者它可能是。两者都是估计器。哪个更好由您决定。 $(X'X)^{-1}X'Y$

一位非常优秀的助教曾经以这种方式向我解释了估算器的概念。

基本上，估算器是您应用于数据以获取您不知道其值的数量的东西。您知道统计数据的价值——它是数据的函数，没有“最佳”或“最佳”。没有“最好”的意思。只有一个意思。

假设您有一个关于每人拥有的山羊数量以及每个人的幸福感的数据集。您对人们的幸福感如何随着他们拥有的山羊数量而变化感兴趣。估计器可以帮助您从数据中估计这种关系。统计数据只是您拥有的数据的功能。例如，山羊所有权的方差可能等于 7。计算方差的公式在山羊和烤面包机之间是相同的，或者您是否对幸福感或患癌症的倾向感兴趣。从这个意义上说，所有明智的估计都是统计数据。

由于其他答案说它们是相同的，因此没有给出权威参考，让我给你引用Casella 和 Berger的Statistical inference handbook 的两个引述：

定义 5.2.1令的随机样本，令为实值或向量值函数，其域包括。然后随机变量或随机向量称为statistic。的概率分布称为的抽样分布。 $X_1,\dots,X_n$ $n$ $T(x_1,\dots,x_n)$ $(X_1,\dots,X_n)$ $Y = T(X_1,\dots,X_n)$ $Y$ $Y$

和

定义 7.1.1点估计器是样本的任意函数；也就是说，任何统计量都是点估计量。 $W(X_1,\dots,X_n)$

我在这里并不是说这是该问题的明确答案，因为我似乎同意两个最赞成的答案，这表明存在差异，只是给出一个相反的参考，以强调这不是一个明确的案例。

其它你可能感兴趣的问题

上一篇我的数据遵循什么分布？下一篇您如何向非统计学家传达中心极限定理的美妙之处？