收敛速度 - 监督 ML 方法的比较

数据挖掘 机器学习 监督学习 参考请求 收敛
2022-02-25 22:42:22

我正在处理一个带有稀疏标记数据集的项目,并且正在寻找有关不同监督 ML 技术在数据集大小方面的收敛速度的参考资料。

我知道,一般来说,提升算法和其他可以在 Scikit-learn 中找到的模型(如 SVM)比神经网络收敛得更快。但是,我找不到任何学术论文从经验或理论上探讨不同方法在达到 n% 准确率之前需要多少数据的差异。我只从经验和各种博客文章中知道这一点。

对于这个问题,我忽略了半监督和弱监督的方法。我也忽略了迁移学习。

1个回答

这是一个非常复杂的问题,因为这是一个活跃的研究领域。第一个陈述是,架构通常很重要(或参数的数量),然后我们才能说出我们需要的效果O(nklog(1δi))为了i,k1样本收敛到局部最优。保证准确性也取决于数据,因此它可能特定于数据本身。因此,您可以将您的问题分解为随机梯度下降的分析以及在神经网络背景下的分析。不幸的是,这些都不处理特定的数据集,所以你关于想要准确性的问题n仍然不可能提出这样的要求。据我所知,我不熟悉沿该方向提出的主张,但是,对于前者(SGD/特定神经架构的分析),我可以在下面链接一些主张和论文。

  1. 关于训练循环神经网络的收敛速度。虽然我还没有读过这篇论文——结果似乎是针对循环神经网络架构的,它们对某些参数化形式的 RNN 的回归类型错误进行了分析。他们的结果也特定于训练错误。https://arxiv.org/abs/1810.12065
  2. 关于完全连接的非常深的神经网络回归估计的收敛速度——本文处理的是分类中不常见的特定损失函数(2预测和目标之间的规范),但可以作为有用的参考。https://arxiv.org/abs/1908.11133
  3. 大规模机器学习的优化方法——关于优化方法的技术和保证的非常全面的文档,但可能缺乏与神经网络相关的具体结果。也是该主题早期工作的重要参考点。https://arxiv.org/abs/1606.04838

请注意,这不应该是一个全面的列表,事实上,这可能只是触及了它的表面。

还有一些不同风格的论文使用朗之万动力学作为分析 SGD 下降轨迹并为其提供界限的方法。这是一个https://arxiv.org/abs/1707.06618但在论文的参考文献中显然还有几个。