查找具有极值的参数(使用 scikit-learn 进行分类)

数据挖掘 分类 逻辑回归 scikit-学习 范围 卡格尔
2022-03-04 08:55:40

我目前正在使用 Kaggle 的森林覆盖类型预测,使用带有 scikit-learn 的分类模型。我的主要目的是了解不同的模型,所以我不会假装讨论哪个更好。

使用逻辑回归时,我想知道是否需要“惩罚”参数(我可以在其中选择 L1 或 L2 正则化)。根据我的发现,这些正则化项对于避免过度拟合很有用,特别是当参数值极端时(通过极端我理解某些参数值的范围与其他参数相比非常大,如果我错了,请纠正我。在这种情况下,对这些值应用对数刻度或归一化还不够吗?)。

主要问题是:由于参数的数量很大,scikit-learn 中是否有可视化技术和工具可以帮助我找到具有极值的参数?是否有任何统计函数/工具可以返回参数值的极端程度?

1个回答

如果“参数”是指特征(在 Kaggle 称为“数据字段”),那么,是的,您可以对这些进行对数缩放。要可视化它们,您可以使用直方图。例如,要对 python 中的所有功能都执行此操作,您可以将数据放入 pandas DataFrame(我们称之为“数据”),然后使用 data.hist() 这与任何模型中的正则化无关。

如果“参数”是指拟合逻辑回归后获得的系数,则使用正则化。然而,这与对数变换没有直接关系。您如何列出/可视化您的系数取决于您用于逻辑回归(或其他模型)的编程工具