我正在参加某个 kaggle 比赛,那里的用户说他们正在使用超过 5000 个功能并在上面训练 XGBoost 或随机森林。
提到的帖子在这里:https ://www.kaggle.com/c/walmart-recruiting-trip-type-classification/forums/t/17258/feature-counts
在扩展功能空间并创建交互功能后,我自己尝试这样做,但在我的 16GB macbook 上运行需要很长时间。例如:(96000,1000) 数据需要大约 5 小时才能完成,以训练 n_estimators=1000,max_depth=40, cv=3 的 RF。
调整这样的模型需要数周时间,而且它只使用 1000 个预测变量......
现在这里有一些我的疑问: 1. 我的 python scikit 环境是否正确加载。我使用 anaconda 发行版。这些运行时间正常吗?