我知道我们拥有的数据越多,我们根据这些数据训练的模型就越可靠。我也明白,机器学习模型的参数越多,它需要的训练数据就越多。例如,深度神经网络需要比线性回归或支持向量机更多的数据。
将机器学习成功应用于文本和图像需要数百万个数据点。我用包含 5000 条思想家名言的数据集阅读了这个尝试(链接),以生成新的名言。作者曾多次尝试失败,直到他明白他的数据集对于这项任务来说太小了。他仅通过使用迁移学习取得了成功,该迁移学习采用了由 Salesforce 开发的 AWD-LSTM 模型,该模型对来自 Wikipedia 的 1 亿个令牌进行了训练。
另一方面,我经常看到科学文章只用几百个数据(甚至更少)训练机器学习模型,并吹嘘他们的“伟大发现”。例如,这篇论文(链接)使用了一个只有 46 个样本的数据集,他们使用了决策树。这种情况之所以存在,是因为在科学中极其罕见的是,一个人可以用数百万种材料进行数百万次实验以获得大型训练数据集。然而,机器学习很流行,因此许多研究小组将其应用于他们的小型数据集只是为了发表。考虑到数据集的大小,他们的预测有多可靠?
是否有一个公式或算法,我可以在其中插入我的训练数据的数量、我的模型的参数数量,以及可能区分模型的其他几个数字(例如前馈神经网络、SVM、核岭回归,决策树)并且这个公式表明我的训练数据大小对于所选方法是足够还是不足?
是否有统计研究定量地表明某个机器学习模型至少需要这么多数据?