该算法需要相当长的时间来训练具有中等数量参数的大型数据集:
https://stats.stackexchange.com/questions/37370/random-forest-computing-time-in-r
https://stackoverflow.com/questions/34997134/random-forest-tuning-tree-depth-and-number-of-trees
我一直在尝试在具有 36 个预测变量的约 25,000 行数据集上运行它,并且它已经使用 6GB 的 RAM 超过 2 小时。
是否存在此算法在生产中使用或每天运行的实例?如果是这样,一种方法如何重新训练它或针对大型数据集对其进行优化?