您的 ML 模型通常使用多少功能?

数据挖掘 scikit-学习
2022-03-08 11:10:19

我正在参加某个 kaggle 比赛,那里的用户说他们正在使用超过 5000 个功能并在上面训练 XGBoost 或随机森林。

提到的帖子在这里:https ://www.kaggle.com/c/walmart-recruiting-trip-type-classification/forums/t/17258/feature-counts

在扩展功能空间并创建交互功能后,我自己尝试这样做,但在我的 16GB macbook 上运行需要很长时间。例如:(96000,1000) 数据需要大约 5 小时才能完成,以训练 n_estimators=1000,max_depth=40, cv=3 的 RF。

调整这样的模型需要数周时间,而且它只使用 1000 个预测变量......

现在这里有一些我的疑问: 1. 我的 python scikit 环境是否正确加载。我使用 anaconda 发行版。这些运行时间正常吗?

1个回答

特征的数量应该考虑到您在训练数据中拥有的示例数量。

如果您的模型训练时间过长,您是否考虑过主成分分析或特征选择这两种技术都可以将特征数量减少到更易于管理的大小,而不会丢弃描述目标变量的信息。