F统计公式的直观解释?

机器算法验证 方差分析 直觉 f-统计量
2022-04-11 20:29:50

统计学习简介定义 F 统计量如下: 我试图直观地解释这个公式 - 分子看起来像 per回归量,分母看起来像每次观察这看起来不像是苹果对苹果的比较。谁能解释为什么它有意义?

(TSSRSS)/pRSS/(np1)
ESSRSS

他们还说,如果线性模型假设成立,分母的期望等于不可约误差的方差(我明白了,因为分母实际上是残差标准误差,它是一个无偏估计量)。他们还说,如果原假设为真,则分子等于不可约误差的方差。因此,如果原假设为真,则 F 统计量将接近 1。

但是如果让 p = 1,也就是将 F 统计量应用于单线性回归,则变为:

TSSRSSRSS/(n2)

根据书本,如果regressor没有解释力,F-statistic应该接近1。但是如果你想象一个X上的系数为0的数据集(即没有解释力),将等于,所以分子和 F 统计量应该是 0,而不是他们声称的 1。到底是怎么回事?TSSRSS

此外,如果您接受他们声称的 F 统计量为 1,则,这意味着如果您将 F 统计量视为比较已解释变异与未解释变异,这似乎不是一个公平的比较,因为这种分解使其成为所有观察结果中总解释变异与每次观察的未解释变异之比。再说一次,我错过了什么?(TSSRSS)=RSS/(n2)ESS=RSS/(n2)

我只是想以一种外行的方式理解它,如果我遗漏了一些明显的东西,我深表歉意。

2个回答

请注意,如果没有总体效应(回归变量的每个组合的总体均值相同),仍然会有一些估计效应——RegressionSS 不为零——如果误差方差增加,它会趋于增加,或者如果您添加了更多回归量。

实际上,如果没有影响,您可以从回归平方和因此,在原假设下,我们取的两个独立估计值的比率,在这种情况下(在 iid 正态误差的假设下),该比率结果具有 F 分布。但是,如果有任何影响,那么基于回归 SS 的估计量将趋于“太大” - 在条件总体均值的变化中,方差估计中还有一个附加项。所以当σ2σ^2=RSS/pσ2H0如果为假,则检验统计量往往会比零假设为真时更频繁地落入零分布的上尾 - 这就是为什么在这种情况下使用 F 检验具有直观意义的原因。

(我输入这个以为你在谈论方差分析,但对于更一般的回归模型,这个想法基本上是相同的。)

您想象的组间变异为零的数据是可能的,但极不可能。(您可能将参数的真实值与其样本估计值混为一谈。)组之间自然会出现某些变化,这完全归因于误差项的不可约方差,并且分子和分母都是无偏估计当空模型成立时的这种方差。ϵ

你可以尝试一个模拟来说服自己这是真的。在模型下生成数据,

Yij=μ+ϵij,

其中 normal , ,是完全任意。请注意,不同组内的成员资格没有任何意义,而您只是在生成 iid 正常变量。接下来对这些数据进行单向方差分析,并检查组内的均方和组间的均方。您应该会发现两者都接近您为选择的值。ϵij(0,σ2)i{1,,p}j{1,,n}μσ2