假设我将以下两个数据集放在最佳模型中(两者的模型相同):
- 一个原始数据集,变量只是来自查询。
- 一个特征工程数据集,包含数百个创建变量,来自我刚才提到的同一个原始数据集。
两个 AUC 之间的差异会很大吗?多少?
假设我将以下两个数据集放在最佳模型中(两者的模型相同):
两个 AUC 之间的差异会很大吗?多少?
是的,使用特征工程,性能可能会有很大差异。
示例:假设一个数据集,为奇数 为真。
x y
346 F
13 T
178 F
64 F
987 T
...
大多数学习模型将无法识别模式并且表现不佳,通常会退回到总是预测多数类别。然而,简单地向数据添加一个特征将允许任何模型完美地执行。
当然,这是一个玩具示例,但关键是一个精心选择的功能可以极大地改变性能。自然,性能的提高完全取决于数据和所添加功能的性质。
我想说的是,原始数据的最佳模型将派生出您无论如何都可以从数据中创建的所有有意义的特征。
我想说,特征工程模型的最佳模型将删除/忽略不必要的特征。
无论如何,最好的模型的 AUC 都是 1。它使所有预测正确。
但即使在 AUC 无法达到 1 的噪声背景下,我认为这个论点仍然成立。
但是学习率/收敛速度可能会有所不同。