统计数据不能是参数的函数——但样本不是参数的函数吗?

机器算法验证 数理统计 采样 推理
2022-04-01 10:47:03

我有一个与这篇文章有关的问题:

统计数据可以依赖于参数吗?

但是关于它,讨论主要集中在提问者作为示例给出的 t 统计量上。从更广泛的意义上说,我的疑问是:

X1,...,Xn是大小的随机样本n从一个人口。T(x1,...,xn)是一个实值函数。随机变量Y=T(X1,...,Xn)称为统计量。

统计量不能是任何参数的函数。但随机样本X1,...,Xn 取决于一些参数θ. 那么,如果统计量是随机样本的函数,而随机样本是参数的函数,那不是使(随机)统计量也成为参数的函数吗?

我知道,当我们计算 t 统计量时,比如说,我们没有在任何地方使用人口的真实参数。但我们使用的是样本均值。这个样本均值取决于总体均值,不是吗?因此,(随机)统计数据在某种意义上取决于总体平均值。

然后,T(X)=T(X(θ)). 但这与统计量不能成为任何参数的函数的事实背道而驰。当我想到统计数据的随机对应物时,这并没有进入我的脑海。

我的思路一定有问题,但我就是找不到。有什么想法吗?

3个回答

成为一个统计量,并假设我们有一些随机变量数据)的统计模型,假设是根据分布分布的,是一个模型函数(通常是密度或概率质量函数),它只知道直到参数,这是未知的。T=T(X)=T(X1,X2,,Xn)XXf(x;θ)fθ

那么统计量分布取决于未知参数作为数据不依赖于这只表示您可以根据一些观察到的数据计算的实际值,而无需知道参数的值。这很好,因为你不知道,所以如果你需要来计算,你将无法计算那会很糟糕,因为你甚至无法开始你的统计分析!TθTXθTθ θθTT

但是,的分布仍然取决于的值。这很好,因为这意味着观察的实际值你可以猜出一些关于的东西,也许可以计算 \theta 的置信如果的所有可能值,的分布是相同的,那么观察的值不会教给我们任何关于的信息!TθTθθTθTθ

因此,这归结为:您必须区分作为数据函数的的分布。第一个不依赖于,第二个依赖。TT(X)θ

:这样的统计数据称为辅助统计。它可能是有用的,但不是直接的,单独用于推断θ

虽然其他答案(到目前为止)非常中肯且有效,但我想为与基准推理(Fisher 的宠物理论)和一种称为“完美抽样”(或“从过去采样”)。

由于随机变量是从(概率)空间(或)的可测函数, ,如果函数的分布依赖于 ,则函数本身可能依赖于参数 theta ,即例如,如果表示的 cdf ,我们可以写成其中是一个统一的随机变量。在这个意义上,(和样本(Ω,P)RRnX:ΩRθθX=Ψ(ω,θ)FθXX=Fθ1(U)UU(0,1)X(X1,,Xn)也)可以写成 [unknown] 参数和固定分布 [unobserved] 随机向量的 [known] 函数, 这种表示对于模拟非常有用,无论是用于从生成(伪)样本(如在逆 cdf 方法中),还是用于实现“完美”模拟。中的方程反转为基准推理中的分布来进行推理被埃夫隆费舍尔称为最大的错误。θξ

(X1,,Xn)=Ψ(ξ,θ)
Fθθ

与前面的答案相关,的真值]的这种 [分布] 依赖性并不意味着可以建立一个依赖于因为在上述方程中. 这是进行推理的重点。Xθθθξ

这里的混淆源于将随机变量与其分布混为一谈。为了明确这个问题,随机变量不是模型参数的函数,而是它的分布。

回到它们的基础,你有一些概率空间,它由样本空间、该空间上的一类子集和 theta索引 theta 类组成. 现在,随机变量只是定义在域上的映射。随机变量本身不依赖于参数,因此将其写成函数是错误的。当然,X 的概率取决于\ΩPθθX:ΩRΩθX(θ)Xθ,因为后者会影响样本空间上的概率测度。但是,它不会影响样本空间本身。

因此,当您处理statistic时,它只是观察到的随机变量的函数,它也不依赖于,但它的分布通常依赖。(如果不是,这是一个辅助统计,)θ


这种处理将作为概率度量的指标,但在贝叶斯处理下也会出现相同的结果,其中被视为的行为根据参数有条件地处理。θθΩX