机器算法验证 - 为什么模型的对数似然函数使用 SSE/n 而不是 SSE/df？ - 吾爱随笔录

为什么模型的对数似然函数使用 SSE/n 而不是 SSE/df？

机器算法验证回归线性模型拟合优度 aic 可能性

2022-03-16 14:38:32

我试图找出对数似然函数如何用于线性回归。我在这里和这里找到了公式。SSE/n用它做了一些实验（见下面的代码），我对可能性使用而不是MSE（）感到非常惊讶SSE/df。MSE到现在到处都在用！我认为 MSE 是第一个资源（第 6 页）公式中提到的更好估计量- 实际残差。但是第二个资源和我的实验清楚地表明被定义为（其中 n 是结果变量向量的长度）。 $\sigma^2$ $\sigma^2$ SSE/n

这是要玩的代码：

set.seed(128)
y = c(rnorm(200, 20, 4), rnorm(300, 30, 4), rnorm(400, 40, 4), rnorm(500, 50, 4))
cat1 = as.factor(c(rep(1, 200), rep(2, 300), rep(3, 400), rep(4, 500)))
rand_order = sample(1:length(cat1))
cat2 = cat1[rand_order]
cat2y = c(rep(1, 200), rep(-2, 300), rep(3, 400), rep(-4, 500))
y = y + cat2y[rand_order]
m1 = lm(y ~ 0 + cat1 + cat2)

# logLik using residual degrees of freedom (-3941.94):
-length(m1$model$y)/2*log(2*pi) - length(m1$model$y)/2*log(sum((m1$residual)^2)/m1$df.residual) - 1/2*m1$df.residual

# logLik using N (-3941.931)
-length(m1$model$y)/2*log(2*pi) - length(m1$model$y)/2*log(sum((m1$residual)^2)/length(m1$model$y)) - 1/2*length(m1$model$y)

# real logLik (-3941.931)
logLik(m1)

2个回答

同样的情况发生在最简单的正态均值模型中：，其中 ~ N(0, )。 $Y=\mu + \epsilon$ $\epsilon$ $\sigma^2$

的 MLE是平均值除以 n 的平方和：。 $\sigma^2$

S^{2} = \sum \frac{(Y_{i} - \bar{Y})^{2}}{n}

$S^2=\sum \frac{(Y_i-\bar{Y})^2}{n}$

然而，这个量是一个有偏的估计量：。将平方和除以而不是可以得到方差的无偏估计量。 $E(S^2) \neq \sigma^2$ $n-1$ $n$

此外，具有自由度为分布。并且独立均方的比率将具有 F 分布。 $\sum \frac{(Y_i-\bar{Y})^2}{\sigma^2(n-1)}$ $\chi^2$ $n-1$

统计推断为估计器中的“最佳”提供了几个标准：这些标准包括无偏性、最小方差、损失函数的最小化和（越来越）预测准确性。作为最大似然估计量也被认为是可取的，因为似然（据说）包含有关模型的所有相关信息（这是有争议的并且已经讨论过）。MLE 通常设法渐近无偏且有效。这对有限样本意味着什么取决于模型。

具有正态误差的线性回归与我在这里给出的简单正态均值模型非常相似：方差的无偏估计量不是 MLE。

无偏估计器是首选，因为它具有良好的分布特性。在几何上，您将划分为两个线性子空间：一个包含模型，一个包含残差。剩余空间的维度是自由度。 $R^n$

为了扩展 Placidia 给出的一个非常好的答案：

无偏性不一定是估计器的最佳属性。在多重共线性或具有许多可能的回归量（套索）的情况下应用的收缩估计量是有意偏向的，这样做是为了改善它们的其他属性（更容易解释结果）。任何具有信息先验的贝叶斯后验均值或后验模式估计量都是有偏差的；这并不意味着我们要摒弃这整个统计领域。
就统计估计器的其他性能标准而言，均方误差 (MSE) 是一个流行的标准：不管它是否有偏差，估计器平均偏离了多远。人口的最佳估计量是分母中没有，不是，而是因此，如果您的推断目标是总体方差，您可能希望使用将误差平方和除以的估计量。 $\sigma^2$ $n-1$ $n$ $n+1$ $n+1$
当然，MLE在回归环境中似乎没有多大意义的观察已经在早些时候进行了，并且已经提出了更正以强制它使用“正确的”自由度。这是限制最大似然(REML) 的想法，其中估计量被定义为以具有“正确”维度的剩余子空间为条件。 $S^2$
ML 的另一个有用属性是变换不变性。如果是的 MLE ，则自动是的 MLE ，而是的估计量。这在软件代码中很方便：关于或的最大化由于数量为非负而变得复杂，而关于的最大化不涉及任何约束。（您会观察到，通过 Jensen 不等式，估计量的无偏性很容易被任何变换破坏： $S^2$ $\sigma^2$ $S$ $\sigma$ $\ln S$ $\ln(\sigma)$ $S$ $S^2$ $\ln S$ $s^{2} = \frac{1}{n - 1} \sum (Y_{i} - \bar{Y})^{2}$ $s^2 = \frac1{n-1} \sum (Y_i - \bar Y)^2$ $s$ 不是的无偏估计。事实上，的无偏估计量很难构造，我不会太羞于承认我不知道我的头脑中的一个。） $\sigma$ $\sigma$

其它你可能感兴趣的问题

上一篇数据置信度的代数下一篇使用协方差矩阵的 SVD 清楚地描述 PCA