分布的自由度是多少?

机器算法验证 分布 数理统计 自由程度
2022-03-07 20:27:16

我现在正在处理很多发行版,例如,F,t,χ2.

我想知道为什么这些自由度意味着分布,例如F(m,n)分配?

2个回答

这是一个技术含量较低的答案,可能对数学准备不足的人来说更容易理解。

术语自由度 (df) 与各种测试统计数据结合使用,但其含义因一项统计测试而异。一些检验没有与检验统计量相关的自由度(例如,Fisher 精确检验或 z 检验)。当我们进行 az 测试时,我们根据数据计算的 z 值可以基于一个关键 z 值表来解释,无论我们的样本有多大或多小。另一种说法是存在一个 z 分布。对于其他一些测试(例如,F 或 t 或 χ2),情况并非如此。

需要根据 df 解释许多检验统计量的原因是,假设原假设为真,检验统计量值的(理论)分布取决于样本大小或组数,或两者兼而有之,或其他一些事实关于收集到的数据。在进行 t 检验时,t 值的分布取决于样本量,因此当我们评估从观察数据计算的 t 值时,我们需要将其与基于与我们的数据相同的样本量预期的 t 值进行比较。同样,方差分析中 F 值的分布(假设原假设为真)取决于样本大小和组数。因此,为了解释我们从数据中计算出的 F 值,我们需要使用 F 值表,这些表基于与数据中相同的样本量和相同的组数。换句话说,F 检验(即 ANOVA)和 t 检验和 χ2 检验都需要一系列曲线来帮助我们解释我们根据数据计算的 t 或 F 或 χ2 值。我们根据值(即df)从这些曲线族中进行选择,以便我们从表中读取的概率适合我们的数据。(当然,大多数计算机程序都会为我们这样做。)

F分布是两个中心卡方分布的比率。m 是与代表分子的卡方随机变量相关的自由度,n 是用于分母的卡方的自由度。要完成您问题的答案,我需要解释卡方自由度。具有 n 个自由度的卡方分布可以表示为 n 个独立的 N(0,1) 个随机变量的平方和。因此,自由度可以看作是出现在总和中的正常随机变量的数量。

现在,如果这些法线包括估计参数,这将改变。例如,假设我们有 n 个独立的 N(m,1) 个随机变量 Xii=1,2,...,n。然后让 Xb是样本均值 = ∑Xi/n。

现在计算 S2= ∑(Xi-Xb)2. 这个S2将具有卡方分布,但具有 n-1 自由度。在这种情况下,我们仍然对 n 的平方 N(0,1) 随机变量求和。但这里的区别在于它们不是独立的,因为每个都是使用相同的 X 形成的b. 因此,对于卡方,人们常说自由度等于总和中的项数减去估计的参数数。

在 t 分布的情况下,我们有一个 N(0,σ2) 除以 V,其中 V 是 σ 的样本估计值。V 与自由度为 n-1 的卡方成正比,其中 n 是样本大小。t 的自由度是参与计算 V 的卡方随机变量的自由度。