我正在处理一个复杂的数据集,其中包含许多患有疾病的患者,以及这些患者的各种品质。我正在尝试根据患者的素质来确定患者的结果。
我正在使用xgboost分类器来尝试确定患者的结果之一。
为了确保我的结果有意义,我添加了一个随机变量,rand它是 (0,10) 内的一个随机数,对患者的结果没有影响。
该rand变量应在变量重要性中显示在最后。
rand意为控制变量。
添加控制变量是否像rand确定我的模型有意义的有效方法一样?
我正在处理一个复杂的数据集,其中包含许多患有疾病的患者,以及这些患者的各种品质。我正在尝试根据患者的素质来确定患者的结果。
我正在使用xgboost分类器来尝试确定患者的结果之一。
为了确保我的结果有意义,我添加了一个随机变量,rand它是 (0,10) 内的一个随机数,对患者的结果没有影响。
该rand变量应在变量重要性中显示在最后。
rand意为控制变量。
添加控制变量是否像rand确定我的模型有意义的有效方法一样?
这种方法有一定的意义,但由于几个原因,它不是最好的方法。
首先,这个控制变量可能并不总是最重要的,因为其他一些变量也可能对目标变量(结果)没有任何影响。
更重要的是,对照组/控制变量的概念在无法客观评估方法效果的情况下很有用。由于安慰剂效应和其他各种偏差,药物试验通常需要一个对照组。对照组扮演基线的角色,方法的性能是相对于这个基线来衡量的。
在监督分类中,有一种更直接的方法可以客观地评估方法的效果:这正是我们在适当的测试集(新实例)上评估性能时所做的。此外,还有一些简单的方法可以将系统的性能与基线进行比较:如果之前没有类似的系统用于该任务,则可以简单地使用随机基线或多数基线分类器。