机器学习中的直方图

数据挖掘 机器学习 Python scikit-学习 熊猫 直方图
2022-02-09 21:11:09

我有一个包含超过 10 万个样本的大型数据集,我想使用 Scikit Learn 从其他 4 个连续特征中预测一个连续目标特征。对于这个项目,我想使用一维和二维直方图来可视化和分析数据。我知道如何绘制直方图,我知道直方图在数学上的含义/显示,但我怎样才能充分利用它来分析我的数据?

想到的一件事是我可以发现具有异常值的区域,但这似乎不是那么有用/有效(如果我错了,请纠正我)。

那么使用直方图分析机器学习数据有哪些有用的方法呢?

谢谢

1个回答

除了简单的直方图之外,我建议您使用来自seaborn.pairplot(). 这将让您检查解释变量之间的相关性。例如,多重共线性可能是一个可以使用降维来解决的问题。

异常值可能不是问题,但在运行任何模型之前你不能说。在这点上,我建议你多次运行同一个模型,有无异常值。此外,始终标准化您的数据,这可能会影响观察的“异常值”。