我们如何从大量数据集中识别特定特征?

数据挖掘 数据集 熊猫 特征选择 数据清理 数据分析
2022-02-23 07:19:42

机器学习中,我们需要使用任何类型的数据集。

在数据集中,有太多的记录和特征,一些数据集有很多特征(有时称为columns

因此,数据科学家的主要问题是了解数据集的行为并从数据集中获得有意义的见解,

让我们从Kaggle平台举一个例子,有一个房价预测的数据集,可以根据那里的特征知道房子的价格,

这是数据集 房屋价格预测高级回归机器学习问题的链接

那么,问题是如何从数据集中识别出有意义的特征?

1个回答

我不认为有一种正确的方法,但你可以做的是

  1. 如果您有许多功能,请使用 PCA。这将根据每个特征的方差量减少一些特征。您可以使用其他降维技术。
  2. 您可以使用 Lightgbm 或随机森林等模型,并了解哪些特征很重要。3. 您可以使用 Lasso Regression 进行特征选择。
  3. 您可以使用直觉来查看某些功能是否没有任何意义。

这些是了解重要特征的一些方法。您可以阅读这篇文章: https ://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2