机器算法验证 - AIC 模型比较的先决条件 - 吾爱随笔录

AIC 模型比较的先决条件

机器算法验证回归模型选择 aic 模型比较嵌套模型

2022-01-26 03:15:34

AIC 模型比较工作需要满足哪些先决条件？

当我进行这样的比较时，我刚刚遇到了这个问题：

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

这样我就证明了logvariable 的转换是合理的usili。但是我不知道当因变量不同时是否可以 AIC 比较模型？

理想的答案将包括先决条件列表（数学假设）。

3个回答

您无法比较这两个模型，因为它们没有模拟相同的变量（因为您正确认识自己）。然而，在比较嵌套模型和非嵌套模型时，AIC 应该可以工作。

在我们继续之前提醒一下：高斯对数似然由下式给出

\log (L (θ)) = - \frac{| D |}{2} \log (2 π) - \frac{1}{2} \log (| K |) - \frac{1}{2} (x - μ)^{T} K^{- 1} (x - μ),

$\log(L(\theta)) =-\frac{|D|}{2}\log(2\pi) -\frac{1}{2} \log(|K|) -\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu),$

$K$ 是模型的协方差结构，数据集中的点数，平均响应和你的因变量。 $|D|$ $\mu$ $x$

更具体地说，AIC 被计算为等于，其中是模型中固定效应的数量，是似然函数 [1]。它实际上比较了建模假设中的 ) 和偏差 ( )之间的权衡。因此，在您的情况下，当涉及到偏差项时，它将比较两种不同的对数似然结构。这是因为当您实际计算对数似然时，您会查看两个项：一个拟合项，用和一个复杂性惩罚项，用 $2k - 2 \log(L)$ $k$ $L$ $2k$ $2\log(L)$ $-\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu)$ $-\frac{1}{2} \log(|K|)$ . 因此，您会看到两个模型之间的拟合项完全不同；在第一种情况下，您比较原始数据的残差，在另一种情况下，比较记录数据的残差。

除了 Wikipedia，AIC 也被定义为等同于： [3]; 这种形式更清楚地说明了为什么具有不同因变量的不同模型不具有可比性。而RSS就是这两种情况，两者之间简直无法比拟。 $|D| \log\left(\frac{RSS}{|D|}\right) + 2k$

Akaike 的原始论文 [4] 实际上很难掌握（我认为）。它基于 KL 散度（粗略地说，两个分布之间的差异），并致力于证明如何逼近数据的未知真实分布，并将其与模型假设的数据分布进行比较。这就是为什么“AIC 分数越小越好”；您更接近数据的近似真实分布。

综上所述，使用 AIC 时要记住的显而易见的事情是三个 [2,5] ：

你不能用它来比较不同数据集的模型。
您应该对所有候选模型使用相同的响应变量。
你应该有，否则您将无法获得良好的渐近一致性。 $|D| >> k$

很抱歉告诉你这个坏消息，但是使用 AIC 来表明你选择一个因变量而不是另一个因变量在统计上是不合理的。检查两个模型中残差的分布，如果记录的数据案例具有正态分布的残差而原始数据案例没有，那么您可能需要的所有理由。您可能还想检查您的原始数据是否对应于对数正态，这也可能是足够的理由。

对于严格的数学假设，游戏是 KL 散度和信息论......

啊，还有一些参考资料：

http://en.wikipedia.org/wiki/Akaike_information_criterion
Akaike Information Criterion, Shuhua Hu, (Presentation p.17-18)
应用多元统计分析，Johnson & Wichern，第 6 版。（第 386-387 页）
重新审视统计模型识别，H. Akaike，IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
模型选择教程 #1：Akaike 的信息标准，D. Schmidt 和 E. Makalic，（演示文稿 p.39）

原则上你应该可以使用AIC进行比较，只是称为“AIC”的数字不是你需要的数字。您正在比较正态分布与对数正态分布。现在来自模型的 AICuu0基本上只是缺少对数转换的“雅可比”。对于对数正态模型，这只是。要将其转换为 AIC，您需要对该术语取负两次 log，这意味着您需要将添加到 AIC 数。所以你应该被比较 $\prod_i y_i^{-1}$ $2\sum_i\log (y_i)$ uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)

Akaike 1978 的这段摘录提供了支持@probabilityislogic 解决方案的引用。

Akaike, H. 1978。关于时间序列模型的可能性。皇家统计学会杂志。D 系列（统计学家）27：217-235。

其它你可能感兴趣的问题

上一篇评估排名算法的指标下一篇使用 CART 时如何衡量/排名“变量重要性”？（特别是使用 R 中的 {rpart}）