我有大约 20 列(20 个特征)的原始数据。其中 10 个是连续数据,10 个是分类数据。一些分类数据可能有 50 个不同的值(美国各州)。在我对数据进行预处理后,10 个连续的列变成了 10 个准备好的列,10 个分类值变成了 200 个单热编码变量。我担心如果我将所有这 200+10=210 个特征都放入神经网络,那么 200-one-hot 特征(10 个分类列)将完全支配 10-continuous 特征。
也许一种方法是将列“分组”在一起或其他方式。这是一个有效的问题吗?是否有任何标准的方法来处理这个问题?
(我正在使用 Keras,虽然我认为这并不重要。)