R中的增量学习方法

机器算法验证 r 机器学习 在线算法
2022-04-06 18:18:00

我正在寻找 R 中一些可以进行增量学习(也称为在线或顺序学习)的库。与传统批处理方法相比,这种学习的用例是处理大量数据。此类做法包括来自传感器的流和数据,在这些情况下始终使用相同的模型或每次都从头开始重建模型是不可行的。任何只能使用单个新示例来更改模型的机器学习算法就足够了。但是,模型本身不能保留旧数据(您可以想象它很快就会变得太大),而只是计算一些有关数据的统计信息。

对于多元回归,随机梯度下降等在线方法将是一个不错的选择。对于回归/模型树,我会想到类似这篇文章的内容。我正在寻找这样的库,其中可以基于不断发展的模型实现相对良好的预测精度(相对于传统的批处理方法)。

1个回答

我建议先看看新西兰怀卡托大学的 MOA(大规模在线分析)。这是Weka背后的同一组。(顺便说一句,Moa 和 Weka 都是新西兰本土物种......虽然前者现在已经灭绝......)

https://moa.cms.waikato.ac.nz/

“MOA 是最流行的数据流挖掘开源框架,拥有一个非常活跃的成长社区(博客)。它包括一系列机器学习算法(分类、回归、聚类、异常值检测、概念漂移检测和推荐系统)和评估工具。与 WEKA 项目相关,MOA 也是用 Java 编写的,同时可以扩展到更苛刻的问题。

有一个 R 包装器,但我没有尝试过;根据 Git 历史,它可能有点过时了。COre MOA 得到积极维护。

HTH Chris(来自新西兰……)