我听说当许多回归模型规范(例如,在 OLS 中)被认为是数据集的可能性时,这会导致多重比较问题,并且 p 值和置信区间不再可靠。一个极端的例子是逐步回归。
我什么时候可以使用数据本身来帮助指定模型,什么时候这不是一种有效的方法?你总是需要有一个基于主题的理论来形成模型吗?
我听说当许多回归模型规范(例如,在 OLS 中)被认为是数据集的可能性时,这会导致多重比较问题,并且 p 值和置信区间不再可靠。一个极端的例子是逐步回归。
我什么时候可以使用数据本身来帮助指定模型,什么时候这不是一种有效的方法?你总是需要有一个基于主题的理论来形成模型吗?
一般来说,变量选择技术(无论是逐步、向后、向前、所有子集、AIC 等)利用样本数据中不存在于总体中的机会或随机模式。对此的技术术语是过度拟合,对于小型数据集尤其成问题,尽管它不是它们独有的。通过使用基于最佳拟合选择变量的程序,在这个特定样本中看起来合适的所有随机变化都会导致估计和标准误差。这对于模型的预测和解释都是一个问题。
具体来说,r 平方太高,参数估计有偏差(它们离 0 太远),参数的标准误差太小(因此参数周围的 p 值和间隔太小/窄)。
应对这些问题的最佳防线是深思熟虑地构建模型,并包含基于理论、逻辑和先前知识的有意义的预测变量。如果需要变量选择程序,您应该选择一种通过调整参数和标准误差来惩罚参数估计的方法(收缩方法)以解决过拟合问题。一些常见的收缩方法是岭回归、最小角回归或套索。此外,使用训练数据集和测试数据集或模型平均的交叉验证可用于测试或减少过度拟合的影响。
Harrell 是详细讨论这些问题的重要来源。 哈雷尔 (2001)。“回归建模策略”。
在我来自的社会科学背景下,问题在于您是否对(a)预测或(b)测试重点研究问题感兴趣。如果目的是预测,那么数据驱动的方法是合适的。如果目的是检查一个重点研究问题,那么考虑哪个回归模型专门测试您的问题很重要。
例如,如果您的任务是选择一组选择测试来预测工作绩效,那么在某种意义上,目标可以被视为最大化工作绩效预测的目标。因此,数据驱动的方法将是有用的。
相反,如果您想了解人格变量和能力变量在影响绩效方面的相对作用,那么特定的模型比较方法可能更合适。
通常,在探索重点研究问题时,目的是阐明正在运行的潜在因果过程,而不是开发具有最佳预测的模型。
当我基于横截面数据开发关于过程的模型时,我会警惕:(a)包括理论上可以被认为是结果变量的后果的预测变量。例如,一个人认为自己表现出色是工作表现的良好预测指标,但这很可能至少部分是由于他们观察到自己的表现这一事实造成的。(b) 包括大量反映相同潜在现象的预测因子。例如,包括 20 个项目,它们都以不同的方式衡量对生活的满意度。
因此,重点研究问题更多地依赖于特定领域的知识。这可能在某种程度上解释了为什么数据驱动的方法在社会科学中很少使用。
我认为不可能进行 Bonferoni 或类似的修正来调整回归中的变量选择,因为模型选择中涉及的所有测试和步骤都不是独立的。
一种方法是使用一组数据来制定模型,并对另一组数据进行推断。这是在我们拥有训练集和测试集的所有时间进行的预测。这在其他领域并不常见,可能是因为数据非常宝贵,以至于我们希望将每一个观察结果都用于模型选择和推理。但是,正如您在问题中指出的那样,缺点是推断实际上具有误导性。
在许多情况下,基于理论的方法是不可能的,因为没有成熟的理论。事实上,我认为这比理论提出模型的情况要普遍得多。
Richard Berk 最近有一篇文章,他通过模拟演示了此类数据窥探和统计推断的问题。正如 Rob所说,这比简单地纠正多个假设检验更有问题。
模型选择后的统计推断 作者:Richard Berk、Lawrence Brown、Linda Zhao 定量犯罪学杂志,Vol。26,第 2 期。(2010 年 6 月 1 日),第 217-236 页。
PDF版本在这里