要训练一个好的监督算法(例如,依赖解析器、词性标注器或NER)数据是必不可少的,但是有多少样本是必要的或足够的呢?我们可以从什么样的角度来尝试估计或/和确定我们应该注释多少数据?或者在我们得到第一次尝试的结果之前,我们可以使用什么样的技术来预测数量?
我知道单词可以分为两种类型:封闭类类型和开放类类型。我们应该考虑吗?
如果不存在这样的方法,我们如何知道我们的模型(主要是高方差)是否存在数据短缺(知道数据永远不够)或其他原因(如结构差或训练过程差或超参数差等)我们得到了模型的第一个版本的结果并认为结果不令人满意?