我应该在特征选择之前进行一次热编码吗?我应该如何在包含分类数据和数值数据的数据集上执行特征选择

数据挖掘 特征选择 编码 一热编码
2022-02-27 12:14:04

这里是新手。我目前正在自学数据科学。我正在研究一个同时具有分类和数字(连续和离散)特征(26 列,30244 行)的数据集。目标是数字(1、2、3)。我有几个问题。

  1. 我还没有执行任何编码或缩放技术。据我所知,由于我的分类数据是无序的,我必须执行一次热编码,对吗?由于它会增加列数,我希望在选择特征后这样做。可以吗?

  2. 如何为此数据集执行特征选择?(因为这既有数字数据又有分类数据)我应该先进行一次热编码,然后再检查相关性或 t 分数或类似的东西吗?

(我目前只专注于 EDA。我脑子里没有模型)

任何帮助深表感谢。谢谢!

1个回答

我必须执行一种热编码,对吗?

是的

由于它会增加列数,我希望在选择特征后这样做。可以吗?

不,您应该进行基本的预处理,例如处理缺失值,然后在特征选择之前继续处理分类数据。当心名义特征与有序特征。

如何为此数据集执行特征选择?

有很多方法可以执行特征选择。您可以使用您提到的方法以及许多其他方法,例如 -

  1. L1 和 L2 正则化
  2. 顺序特征选择
  3. 随机森林
  4. 更多技术在博客中

我应该先进行一次热编码,然后再检查相关性或 t 分数或类似的东西吗?

关于这个问题有一个很好的答案here