我有几 TB 的宽数据。在将数据集输入分类模型之前,我想减少数据集中的特征数量……还是不应该?
显然,如果我的集群预算允许,我会尝试这两种方法,但是是否有任何明显的理论可以解释为什么以下任何一种方法都会比另一种更好?
- 自动编码器(tanh、tanh、tanh 层)
- 或者:大幅减少分类模型本身的第二层和第三层的输入数量,可能是通过 dropout。还有,辍学
我有几 TB 的宽数据。在将数据集输入分类模型之前,我想减少数据集中的特征数量……还是不应该?
显然,如果我的集群预算允许,我会尝试这两种方法,但是是否有任何明显的理论可以解释为什么以下任何一种方法都会比另一种更好?
自动编码器是进行降维的好选择,但是,您需要对自动编码器进行另一次培训。
如果您想在输入分类模型之前进行降维,那么 PCA 和 t-SNE 怎么样?他们不需要训练过程来进行降维。