拟合优度、预测能力、辨别力

机器算法验证 回归 物流 预测模型 回归策略
2022-03-10 17:56:15

我正在制作几个基于逻辑回归的预测模型,并打算对它们进行比较,看看哪个是“最好的”。这里的“最佳”显然定义不明确,但是当我正在寻找评估模型性能的通用指标时,我遇到了 GoF 的不同用途。例如,在这个wiki页面上,R^2s 是 GoF,而这里R^2s 是“预测能力”的度量。我还在某处读到 ROC 是一种 GoF 措施。

所以我的问题是,GoF 和预测能力之间有区别吗?歧视是不是也可能受到歧视?此外,正确的评分函数、c 统计量和特异性/敏感性属于哪里?

1个回答

看待这个问题的一种方法是,拟合优度是训练误差,预测准确度是测试误差。(“预测能力”不是一个非常精确的术语。)也就是说,拟合优度是模型可以“预测”您已经用来估计其参数的数据点的程度,而预测准确性是模型可以预测的程度新的数据点,它还没有看到因变量的真实值。许多相同的指标,例如均方根误差,可用于量化拟合优度和预测准确性;这两种情况的区别在于模型是否已经使用相关数据进行了训练。

哪个更重要?就个人而言,我更关心预测的准确性。这告诉您该模型对于预测未来看不见的数据有多大用处。如果您认为模型纯粹是描述性的,即提供数据摘要而不是预测性的,那么您应该注意拟合优度。需要明确的是,具有最佳拟合的模型可能不是预测最准确的,反之亦然,所以这里有一个真正的选择。

现在,通常出于解释性原因进行数据分析,研究人员对描述数据或预测新观察结果不感兴趣,而是对真正的潜在数据生成过程(即对数据的解释)进行推断。目前尚不清楚拟合优度或预测准确性是否更好,尤其是因为两者都没有很好地说明模型作为解释的准确度。我的观点是拟合优度更好,但很明显,盲目地试图优化拟合优度,而不考虑特定于内容的问题,不会让你快速得到好的解释。与拟合优度或预测准确性相比,解释最终是一个更少统计且更科学的概念。