如何检查我的回归模型是否良好

机器算法验证 r 回归 广义线性模型
2022-03-17 03:03:18

使用“glm”查找逻辑回归模型准确性的一种方法是查找 AUC 图。如何检查具有连续响应变量(family = 'gaussian')的回归模型是否相同?

使用哪些方法来检查我的回归模型与数据的拟合程度?

4个回答

我建议先简要搜索一下“线性回归模型诊断”。但这里有一些我建议你检查一下:

确保令人满意地满足假设

  • 使用散点图或分量加残差图检查独立预测变量和因变量之间的线性关系。

  • 绘制具有标准化残差与预测值的图,并确保没有残差非常高的极值点,并且残差的分布在预测值上基本相似,并且在残差平均值之上和之下的分布基本相同,零。

  • 您还可以将 y 轴更改为残差该图有助于识别不等方差。2

  • 重新检查研究设计以确保独立性假设是合理的。

  • 检索方差膨胀因子 (VIF) 或容差统计数据以检查可能的共线性。

检查潜在的影响点

  • 检查诸如 Cook 的 D、DFits 或 DF Beta 之类的统计数据,以了解某个数据点是否会极大地改变您的回归结果。你可以在这里找到更多。

检查和调整后统计数据的变化R2R2

  • 作为回归平方和与总平方和的比率,可以告诉您模型解释了因变量中有多少百分比的可变性。R2
  • 调整后可用于检查额外的平方和是否真的值得他们采用的自由度。R2

检查必要的交互

  • 如果有一个主要的独立预测变量,在对其独立影响做出任何解释之前,请检查它是否与其他独立变量相互作用。如果不进行调整,交互可能会使您的估计产生偏差。

将您的模型应用于另一个数据集并检查其性能

  • 您还可以将回归公式应用于其他单独的数据,看看它的预测效果如何。像散点图这样的图表和像观察值的百分比差异这样的统计数据可以作为一个好的开始。

我喜欢交叉验证我的回归模型,看看它们对新数据的泛化程度如何。我选择的度量标准是交叉验证数据的平均绝对误差,但均方根误差更常见且同样有用。

我不认为 R2 是衡量模型与训练数据拟合程度的好指标,因为几乎所有根据训练数据计算的误差度量都容易过度拟合。如果您必须在训练集上计算 R2,我建议使用调整后的 R2

您可以使用来检查您的模型与训练数据的拟合程度。这将告诉您模型解释了数据方差的百分比。R2

与实际值相比,我建议在测试集上使用预测的 RMSE(均方根误差)。这是报告连续变量预测误差的标准方法。

我习惯于通过绘制非参数(例如核回归)或半参数估计并将其与参数拟合曲线进行比较来检查我的参数估计器的功能形式。我认为这是第一步通常比包含交互项或高阶项更快(也许更有洞察力)。

R 包 np 提供了许多不错的非参数和半参数函数,它的 Vignette 写得很好: http ://cran.r-project.org/web/packages/np/vignettes/np.pdf