估计语法提取的数据集大小

数据挖掘 机器学习 nlp
2021-10-12 07:38:01

我有一个包含 100 个句子的依赖树库,我将其分为训练集和测试集。我提取了一些规则((DS,PS)对)将树库转换为短语结构。当我从训练集中提取这些规则时,我可以测量覆盖测试集的规则(DS 模式)的百分比,假设

(10, 24%), (20, 34%), (30,40%), (40,44%), (50, 55%),(60, 58%), (70, 61%).. .

正如你所看到的,当我增加训练集的大小时,提取模式的覆盖范围就会增加!但是它不是线性的!,我想看看我需要多少数据才能达到 100% 的覆盖率?我想我可以使用回归,但哪个回归?对数?

这与“学习曲线”有关吗?如果是的话,我如何使用回归来学习曲线?

2个回答

您永远无法获得 100% 的真实语法提取覆盖率。对于现实世界的数据,语法是复杂且未定义的。此外,这是一个“开放世界”数据问题,因为总是可以创建新的语法短语。

通过过度拟合,您可能会获得 100% 的小数据集覆盖率。

统计学习理论为预测机器学习的局限性提供了一个框架。

训练数据集的大小与测试数据集的准确性或覆盖率之间没有一般关系。为了以简单的方式看到这一点,您可以使用单个训练示例的无限副本来扩充您的训练数据,但这(可能)不会帮助您在测试数据集上的准确性或覆盖率。