数据挖掘 - 为什么我的训练精度会降低多项式特征的更高程度？ - 吾爱随笔录

数据挖掘 scikit-学习逻辑回归准确性分类器

2022-02-27 04:46:00

我是机器学习的新手，开始在 Kaggle 上解决泰坦尼克号幸存者问题。

在使用逻辑回归解决问题时，我使用了具有多项式特征的各种模型 $2,3,4,5,6$ . 从理论上讲，训练集的准确性应该随着学位的增加而增加，但是它开始降低学位后 $2$ . 图表如下

2个回答

我不同意“理论上训练集的准确性应该随着程度的增加而增加”的断言。多项式回归的目标不是随机尝试新的多项式。目标是使用更适合您的数据的多项式，因为相关性不是线性的。

让我们考虑一下线性回归的最终结果——它通常类似于y = mx + b

如果你把它展示给数据科学家，他们会告诉你这是线性回归。你把它展示给一个数学学生，他们会告诉你它的直线公式。无论哪种方式，它只是一个图表公式。但是，请注意，这是一条直线，并非所有数据都是线性的。所以，知道你只是想出一个公式，你应该以同样的方式考虑多项式回归——我想画什么图？

如果您使用散点图并且看到相关性但该关系是指数的，那么您应该使用相应的多项式；所有其他变体也是如此。使用不会绘制与您的数据相关性紧密对齐的图形的多项式没有合乎逻辑的解释。

您是否尝试过标准化，或者您的算法不需要标准化？

许多机器学习算法需要对它们进行归一化，因为它们的规模相同。

x = (x - x_{m e a n}) / x_{s t d} x^{2} = (x^{2} - x_{m e a n}^{2}) / x_{s t d}^{2} . . a n d s o o n .

$x = (x - x_{mean})/x_{std} \\ x^2 = (x^2 - x^2_{mean})/x^2_{std} \\ .. and so on.$

如果你不对它们进行归一化，训练可能会非常缓慢或不收敛。
您可以使用sklearn.preprocessing.StandardScaler。

其它你可能感兴趣的问题