我有一个由不同织物材料的尺寸和特征组成的熊猫数据框。每种产品材料类型都有几行,导致数据集看起来非常庞大。根据基本逻辑和领域知识,我可以判断显示结构尺寸的列对于分析我正在查找的数据不是必需的。
我尝试运行关联并打印热图,但它没有显示大多数列的任何输出。对于大多数列相关性,仅打印出白色。这让我很难判断。
请告知是否有更好的方法来统计证明列之间的关系并证明删除不相关列的理由
我有一个由不同织物材料的尺寸和特征组成的熊猫数据框。每种产品材料类型都有几行,导致数据集看起来非常庞大。根据基本逻辑和领域知识,我可以判断显示结构尺寸的列对于分析我正在查找的数据不是必需的。
我尝试运行关联并打印热图,但它没有显示大多数列的任何输出。对于大多数列相关性,仅打印出白色。这让我很难判断。
请告知是否有更好的方法来统计证明列之间的关系并证明删除不相关列的理由
关于其他答案,我观察到您关于具有字符串特征的观点,您必须首先找到一种方法将它们编码为数字特征,然后可以帮助您使用 PCA,并且热图的问题也将得到解决。此外,如果您的问题是回归问题,那么您可以使用 L1-Regularization 等方法来帮助您进行特征选择,并且您不必在预处理时删除特征。
也许您正在寻找主成分分析 (PCA),它可以识别数据集中解释最大差异的成分。
您可以使用特征选择器,随机森林可以用作其中之一,但首先我认为您应该将这些列转换为可用变量(数字或分类),例如,因为您有尺寸,可能会创建一个高度列和另一个宽度,以防止不必要的行为。
其他直接的方法可能是前向选择、后向消除和更多资源
我同意功能选择。您可以在GitHub 上查阅有关 ML with Python 的 Microsoft Learning Repository ,它为您提供了一些理论背景以及运行 Python 代码。您可以为自己的项目导入和调整该代码。干杯