数据挖掘 - 与原始数据集和特征工程数据集相比，AUC 可以提高多少？ - 吾爱随笔录

数据挖掘机器学习特征工程奥克

2022-02-16 07:50:39

假设我将以下两个数据集放在最佳模型中（两者的模型相同）：

两个 AUC 之间的差异会很大吗？多少？

2个回答

是的，使用特征工程，性能可能会有很大差异。

示例：假设一个数据集，为奇数为真。 $y$ $x$

x    y

346  F
13   T
178  F
64   F
987  T
...

大多数学习模型将无法识别模式并且表现不佳，通常会退回到总是预测多数类别。然而，简单地向数据添加一个特征将允许任何模型完美地执行。 $x \% 2$

当然，这是一个玩具示例，但关键是一个精心选择的功能可以极大地改变性能。自然，性能的提高完全取决于数据和所添加功能的性质。

我想说的是，原始数据的最佳模型将派生出您无论如何都可以从数据中创建的所有有意义的特征。

我想说，特征工程模型的最佳模型将删除/忽略不必要的特征。

无论如何，最好的模型的 AUC 都是 1。它使所有预测正确。

但即使在 AUC 无法达到 1 的噪声背景下，我认为这个论点仍然成立。

但是学习率/收敛速度可能会有所不同。

其它你可能感兴趣的问题