我正在处理一个带有稀疏标记数据集的项目,并且正在寻找有关不同监督 ML 技术在数据集大小方面的收敛速度的参考资料。
我知道,一般来说,提升算法和其他可以在 Scikit-learn 中找到的模型(如 SVM)比神经网络收敛得更快。但是,我找不到任何学术论文从经验或理论上探讨不同方法在达到 n% 准确率之前需要多少数据的差异。我只从经验和各种博客文章中知道这一点。
对于这个问题,我忽略了半监督和弱监督的方法。我也忽略了迁移学习。
我正在处理一个带有稀疏标记数据集的项目,并且正在寻找有关不同监督 ML 技术在数据集大小方面的收敛速度的参考资料。
我知道,一般来说,提升算法和其他可以在 Scikit-learn 中找到的模型(如 SVM)比神经网络收敛得更快。但是,我找不到任何学术论文从经验或理论上探讨不同方法在达到 n% 准确率之前需要多少数据的差异。我只从经验和各种博客文章中知道这一点。
对于这个问题,我忽略了半监督和弱监督的方法。我也忽略了迁移学习。
这是一个非常复杂的问题,因为这是一个活跃的研究领域。第一个陈述是,架构通常很重要(或参数的数量),然后我们才能说出我们需要的效果为了样本收敛到局部最优。保证准确性也取决于数据,因此它可能特定于数据本身。因此,您可以将您的问题分解为随机梯度下降的分析以及在神经网络背景下的分析。不幸的是,这些都不处理特定的数据集,所以你关于想要准确性的问题仍然不可能提出这样的要求。据我所知,我不熟悉沿该方向提出的主张,但是,对于前者(SGD/特定神经架构的分析),我可以在下面链接一些主张和论文。
请注意,这不应该是一个全面的列表,事实上,这可能只是触及了它的表面。
还有一些不同风格的论文使用朗之万动力学作为分析 SGD 下降轨迹并为其提供界限的方法。这是一个https://arxiv.org/abs/1707.06618但在论文的参考文献中显然还有几个。