这里是新手。我目前正在自学数据科学。我正在研究一个同时具有分类和数字(连续和离散)特征(26 列,30244 行)的数据集。目标是数字(1、2、3)。我有几个问题。
我还没有执行任何编码或缩放技术。据我所知,由于我的分类数据是无序的,我必须执行一次热编码,对吗?由于它会增加列数,我希望在选择特征后这样做。可以吗?
如何为此数据集执行特征选择?(因为这既有数字数据又有分类数据)我应该先进行一次热编码,然后再检查相关性或 t 分数或类似的东西吗?
(我目前只专注于 EDA。我脑子里没有模型)
任何帮助深表感谢。谢谢!