我目前正在使用 Kaggle 的森林覆盖类型预测,使用带有 scikit-learn 的分类模型。我的主要目的是了解不同的模型,所以我不会假装讨论哪个更好。
使用逻辑回归时,我想知道是否需要“惩罚”参数(我可以在其中选择 L1 或 L2 正则化)。根据我的发现,这些正则化项对于避免过度拟合很有用,特别是当参数值极端时(通过极端我理解某些参数值的范围与其他参数相比非常大,如果我错了,请纠正我。在这种情况下,对这些值应用对数刻度或归一化还不够吗?)。
主要问题是:由于参数的数量很大,scikit-learn 中是否有可视化技术和工具可以帮助我找到具有极值的参数?是否有任何统计函数/工具可以返回参数值的极端程度?