我正在使用机器学习模型来预测使用 7 个不同特征的序数变量(值:1、2、3、4 和 5)。我将此作为回归问题提出,因此模型的最终输出是连续变量。因此,评估箱线图如下所示:
我尝试了线性(线性回归、线性 SVM)和非线性模型(带 RBF 的 SVM、随机森林、梯度提升机)。模型使用交叉验证(约 1600 个样本)进行训练,25% 的数据集用于测试(约 540 个样本)。我正在使用 R 平方和均方根误差 (RSME) 来评估测试样本上的模型。 我有兴趣找到一种评估方法来比较线性模型和非线性模型。
这是为了科学研究。有人指出,R 方可能不是非线性模型的合适度量,卡方检验将是拟合优度的更好度量。
问题是,我不确定最好的方法是什么。当我浏览卡方作为拟合优度时,我只得到使用卡方检验来查看某些分类样本是否符合理论期望的示例,例如这里。所以这是我的考虑/问题:
我能想到的一种方法是将预测(连续)值分类到箱中,并使用卡方检验将预测分布与地面实况分布进行比较。但这没有多大意义,即我们有一个机器学习模型,可以完美地预测真实值 2,3 和 4,值 5 预测为 1,值 1 预测为 5 - 我在这里提出的卡方检验会拒绝原假设,尽管模型错误预测了 5 个值中的 2 个。
正如USC的教程中提到的,我可以使用公式 (1) 来计算卡方值,其中实验测量的量 (xi) 是我的基本真实值,假设值 (mui) 是我的预测值。我的问题是,差异是什么?如果我们将每个值 1、2、3、4 和 5 视为一个不同的类别,那么每个类别内的基本事实的方差等于零。另外,如何计算自由度(Nr)?
与我有兴趣找到一种评估度量来将线性模型与非线性模型进行比较的陈述相关,卡方检验是最好的(甚至是好的)选择吗?到目前为止,我在回归任务的机器学习竞赛中所看到的,MSE 或 RSME 都用于评估。