我有一个包含 100 个句子的依赖树库,我将其分为训练集和测试集。我提取了一些规则((DS,PS)对)将树库转换为短语结构。当我从训练集中提取这些规则时,我可以测量覆盖测试集的规则(DS 模式)的百分比,假设
(10, 24%), (20, 34%), (30,40%), (40,44%), (50, 55%),(60, 58%), (70, 61%).. .
正如你所看到的,当我增加训练集的大小时,提取模式的覆盖范围就会增加!但是它不是线性的!,我想看看我需要多少数据才能达到 100% 的覆盖率?我想我可以使用回归,但哪个回归?对数?
这与“学习曲线”有关吗?如果是的话,我如何使用回归来学习曲线?