为新数据同时快速绘制多个特征的最简单方法是什么?

数据挖掘 绘图 海运
2022-03-02 03:18:48

我正在为 DS/ML 开始一个非常初学者的教程。首先要做的事情之一就是查看他们给我的数据。在完成了 pandas 中典型的 head() 和 describe() 之后,我想更仔细地查看数值特征,看看它们与标签之间是否存在任何相关性(例如,简单的线性关系)。

我以前使用过 matplotlib 和其他东西,但我想以“正确”的方式做到这一点。我正在查看的教程建议使用 seaborn,但老实说,这似乎很难适用于我的建议(他们正在研究更复杂的关系/等)。

我可以使用 matplotlib,但我从来没有找到一种平滑、无缝的方式来同时制作多个图的网格。做“次要情节”的事情真的很笨拙。有没有更好的办法?

我想做的是,假设我有 4 个数字特征,我想将它们中的每一个(或它们的平均值等)与标签绘制出来,并显示出来,这样我就可以快速看到模式。最好的方法是什么?

2个回答

我相信seaborn 的 pairplot就是你要找的。

Seaborn是一个基于 matplotlib 构建的绘图库,正是您想要的原因。为数据分析制作快速美观的图表。Seaborn 也可以很好地与 pandas DataFrames 配合使用。

您可以做的是应用降维技术(例如tSNE)在 2 维或 3 维中一次可视化所有特征。Scikit learn具有出色的 tSNE 实现。

然而,tSNE 更多地用于寻找高维的局部结构和聚类,而不是特征之间的关系。此外,簇之间的距离和缩小的 XY 轴在 tSNE 中没有任何意义。

如果您知道您的数据在特征之间存在某种关系,则最好使用 seaborns pairplot,正如 M Sef 所建议的那样,一次绘制多个特征。