随机森林 (RF) 由决策树 (DT) 的集合创建。通过使用 bagging,每个 DT 在不同的数据子集中进行训练。因此,有没有办法通过在新数据上添加更多决策树来实现在线随机森林?
例如,我们有 10K 个样本并训练 10 个 DT。然后我们得到 1K 个样本,而不是再次训练完整的 RF,我们添加了一个新的 DT。现在通过 10+1 个 DT 的贝叶斯平均值来进行预测。
此外,如果我们保留所有以前的数据,则可以主要在新数据中训练新的 DT,其中选取样本的概率根据已经选取的次数进行加权。
随机森林 (RF) 由决策树 (DT) 的集合创建。通过使用 bagging,每个 DT 在不同的数据子集中进行训练。因此,有没有办法通过在新数据上添加更多决策树来实现在线随机森林?
例如,我们有 10K 个样本并训练 10 个 DT。然后我们得到 1K 个样本,而不是再次训练完整的 RF,我们添加了一个新的 DT。现在通过 10+1 个 DT 的贝叶斯平均值来进行预测。
此外,如果我们保留所有以前的数据,则可以主要在新数据中训练新的 DT,其中选取样本的概率根据已经选取的次数进行加权。
最近有一篇关于这个主题的论文(在线随机森林),来自计算机视觉。这是一个实现和一个演示文稿:10 分钟内的在线随机森林