在线、可扩展的统计方法

机器算法验证 在线算法 计算统计 参考
2022-03-20 09:52:40

这是受到高效在线线性回归的启发,我觉得这很有趣。是否有任何专门用于大规模统计计算的文本或资源,通过这些计算,数据集太大而无法放入主内存,并且可能过于多样化而无法有效地进行子采样。例如,是否可以以在线方式拟合混合效果模型?有没有人研究过用一阶 SGD 类型的技术替换 MLE 的标准二阶优化技术的效果?

1个回答

您可以查看雅虎的 John Langford的Vowpal Wabbit 项目!研究 。它是一个在线学习器,对一些损失函数进行专门的梯度下降。大众汽车有一些杀手锏:

  • 使用“sudo apt-get install vowpal-wabbit”在 Ubuntu 上轻松安装。
  • 对非常大的特征空间使用散列技巧
  • 特定于特征的自适应权重。
  • 最重要的是,该项目有一个活跃的邮件列表和社区。

Bianchi & Lugosi 的书《预测、学习和游戏》为在线学习提供了坚实的理论基础。重读,但值得!