您如何从通过不同方法(例如向后或向前选择)选择的不同模型中选择模型?
还有什么是简约模型?
您如何从通过不同方法(例如向后或向前选择)选择的不同模型中选择模型?
还有什么是简约模型?
简约模型是用尽可能少的预测变量完成所需解释或预测水平的模型。
对于模型评估,根据您想知道的内容,有不同的方法。通常有两种评估模型的方法:基于预测和基于当前数据的拟合优度。在第一种情况下,您想知道您的模型是否充分预测新数据,在第二种情况下,您想知道您的模型是否充分描述了当前数据中的关系。这是两个不同的东西。
评估用于预测的模型的最佳方法是交叉验证。简而言之,您将数据集剪切为例如。10 个不同的部分,使用其中的 9 个来构建模型并预测第十个数据集的结果。观察值和预测值之间的简单均方差为您提供预测准确性的度量。当您重复此操作十次时,您计算所有十次迭代的均方差,以得出具有标准偏差的一般值。这允许您再次使用标准统计技术(t 检验或 ANOVA)比较两个模型的预测准确性。
该主题的一个变体是 PRESS 标准(预测平方和),定义为
在哪里是使用基于所有观测值减去第 i 个值的模型的第 i 个观测值的预测值。如果您没有太多数据,此标准特别有用。在这种情况下,像交叉验证方法那样拆分数据可能会导致数据子集太小而无法稳定拟合。
首先让我声明,这取决于您使用的模型框架。例如,在对错误使用经典高斯时,似然比检验可以适用于广义加性混合模型,但在二项式变体的情况下则没有意义。
首先,您拥有比较模型的更直观的方法。您可以使用 Aikake 信息准则 (AIC) 或贝叶斯信息准则 (BIC) 来比较两个模型的拟合优度。但没有什么能告诉你这两种模型真的不同。
另一种是 Mallow 的 Cp 准则。这实质上是通过将模型与所有可能的子模型(或仔细选择它们)进行比较来检查模型中可能存在的偏差。另见http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
如果您要比较的模型是嵌套模型(即更简洁模型的所有预测变量和交互作用也出现在更完整的模型中),您可以使用似然比检验(或卡方检验)形式的正式比较或在适当的情况下进行 F 检验,例如在比较使用最小二乘法拟合的简单线性模型时)。该测试实质上控制了额外的预测变量或交互是否真正改善了模型。该标准通常用于前向或后向逐步方法。
你有拥护者,也有这种方法的敌人。我个人不赞成自动模型选择,尤其是在描述模型时,这有很多原因:
所以基本上,我在比较预先选择的一组模型时看到了更多。如果您不关心模型的统计评估和假设检验,则可以使用交叉验证来比较模型的预测准确性。
但是,如果您真的出于预测目的而选择变量,您可能想看看其他变量选择方法,例如支持向量机、神经网络、随机森林等。这些更常用于医学等领域,以找出千种测量蛋白质中的哪一种可以充分预测您是否患有癌症。举一个(著名的)例子:
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
所有这些方法也具有连续数据的回归变体。
吝啬是你的敌人。大自然的行为并不吝啬,数据集也没有足够的信息来选择“正确”的变量。您使用哪种方法或使用哪种索引作为停止规则并不重要。没有收缩的变量选择几乎是注定的。然而有限的向后降级(与) 有时会有所帮助。它之所以有效,是因为它不会删除许多变量。
使用向后或向前选择是一种常见的策略,但我不能推荐。这种模型构建的结果都是错误的。p值太低,系数偏离0,还有其他相关问题。
如果您必须进行自动变量选择,我建议使用更现代的方法,例如 LASSO 或 LAR。
我为此写了一篇 SAS 演示文稿,题为“逐步停止:为什么逐步和类似的方法不好以及应该使用什么”
但是,如果可能的话,我会完全避免使用这些自动化方法,并依赖主题专业知识。一种想法是生成 10 个左右合理的模型,并根据信息标准对它们进行比较。@Nick Sabbe 在他的回复中列出了其中的几个。
这个问题的答案很大程度上取决于你的目标。您可能正在寻找具有统计意义的系数,或者您可能在预测新观察结果时尽可能避免错误分类,或者您可能只是对误报最少的模型感兴趣;也许您只是想要与数据“最接近”的曲线。
在上述任何一种情况下,您都需要某种衡量标准来寻找您正在寻找的东西。一些具有不同应用的流行度量是 AUC、BIC、AIC、残差、......
您为每个模型计算最符合您的目标的度量,然后比较每个模型的“分数”。这将为您的目标带来最佳模型。
其中一些措施(例如 AIC)对模型中非零系数的数量施加了额外的压力,因为使用太多可能只是过度拟合数据(因此,如果将模型用于新数据,更不用说人口)。可能还有其他原因要求模型保留“尽可能少”的变量,例如,如果为了预测而测量所有变量的成本很高。模型中的“简单性”或“少量变量”通常被称为其简约性。
所以简而言之,简约模型是一个“简单”模型,没有太多变量。
与这些类型的问题一样,我将向您推荐优秀的《统计学习要素》一书,以获取有关该主题和相关问题的更深入信息。