我之所以问这个问题,是因为尽管已经询问了这个“如何比较模型”问题的多种变体,但似乎缺乏明确的答案。(请参阅下面的链接以获得证据)我希望因为这些链接,人们会认真对待这个问题,我会得到答复。
如何将线性回归(数值)和决策树模型(分类)与相同数据集和目标变量的交叉验证进行比较?
对于我的具体情况,我有一个变量(WDI 的二氧化碳排放量),它可以是数值或因子/多项式 (1)。所以我希望能够比较最基本的分类和数值回归模型。但是,因为我仍在学习数据科学,所以我不知道什么一致的统计数据可以衡量回归和分类模型的准确度、精确度和召回率。 我可以用什么统计数据来比较? 以下是我在尝试解决此问题时找到的链接:
(1) 作为记录,我确实与领域专家仔细检查过。二氧化碳排放量通常聚合/离散为已知大小的 25 倍。阅读McMichael, AJ, Campbell-Lendrum, D., Kovats, S., Edwards, S., Wilkinson, P., Wilson, T., ... & Schlesinger, M. (2004)或全球气候变化或 Mahlstein, I., & Knutti, R. (2010)。通过聚类分析确定的区域气候变化模式。气候动力学,35(4),587-600。
广泛的链接:
这些确实回答了广义上的问题。但是,他们不同意可用于使用验证来比较两者的指标、统计数据或度量(尤其是因为他们并不总是比较两个相同的模型)。
- k折交叉验证后如何选择预测模型? (不列出指标)
- 使用和解释折交叉验证 (建议同时使用均方误差和解释方差分数)
- 使用交叉验证比较两个 GLM (仅针对数值模型的答案)
- 如何比较两种分类方法的性能?(逻辑回归和分类树) (仅针对分类模型的答案)
- 如何在性能方面比较分类方法? (分类方法的答案,但建议使用 Brier 分数或对数分数)
- 在 R 中执行交叉验证以比较 Lasso 和其他回归模型 (非常混乱)
- 比较聚类技术的交叉验证 (建议使用 T 检验或 F 检验)
令人困惑和错误的链接:
注意:当我阅读链接时,它们感到困惑,因为有些人谈论使用交叉验证来衡量性能或在比较模型时评估单个模型。他们讨论了一些次要问题,但没有回答关于如何使用验证方法来比较模型的根本问题。
1. https://stats.stackexchange.com/questions/43310/how-to-evaluate-results-of-linear-regression
2. https://stats.stackexchange.com/questions/193959/does-cross-validation-on-simple-or-multiple-linear-regression-make-sense
3. https://stats.stackexchange.com/questions/122476/why-not-using-cross-validation-for-estimating-the-error-of-a-linear-model
4. https://stats.stackexchange.com/questions/246374/cross-validation-confusion
5. https://stats.stackexchange.com/questions/11602/training-with-the-full-dataset-after-cross-validation
6. https://stats.stackexchange.com/questions/156563/should-cross-validation-be-used-to-provide-the-final-parameters-or-just-to-comp
PS 过度拟合,即使使用数值回归,对于我正在使用的数据集来说也是一个已知问题,就像欧洲天气模型数据集的问题一样。但是,这超出了我的问题范围,因为我使用交叉验证来比较模型而不是衡量单个模型的性能。
其他用户相同类型的相关未回答问题:
1. https://stats.stackexchange.com/questions/155771/how-to-compare-performance-of-regression-and-classification
2. https://stats.stackexchange.com/questions/179258/how-to-pick-the-best-model-with-cross-validation
3. https://stats.stackexchange.com/questions/244725/compare-classification-methods-with-cross-validation
4. https://stats.stackexchange.com/questions/241454/how-to-compare-linear-regression-and-classification-trees-without-measuring-er
5. https://stats.stackexchange.com/questions/224743/classification-trees-how-to-avoid-cherry-picking
6. https://stats.stackexchange.com/questions/188704/how-to-compare-classification-methods-in-terms-of-performance
7. https://stats.stackexchange.com/questions/145635/should-cross-validation-to-compare-models-be-performed-with-the-same-partitions
8. https://stats.stackexchange.com/questions/226995/compare-statistical-vs-nonstatistical-forecast-using-cross-validation
9. https://stats.stackexchange.com/questions/206892/how-compare-more-than-two-methods-after-cross-validation
10. https://stats.stackexchange.com/questions/95453/cross-validation-for-comparing-clustering-techniques
11. https://stats.stackexchange.com/questions/244003/conducting-hypothesis-test-to-compare-two-models-test-error-generated-by-cross
12. https://stats.stackexchange.com/questions/148690/comparing-predictors-based-on-roc-auc-and-cross-validation-error
13. https://stats.stackexchange.com/questions/248224/how-to-compare-predictive-models-after-cross-validation-if-you-have-different-re