我从事很多统计建模工作,例如隐马尔可夫模型和高斯混合模型。我发现在每种情况下训练好的模型都需要大量(HMM 超过 20000 个句子)数据,这些数据来自类似的环境作为最终用途。我的问题是:
- 文献中是否存在“足够”训练数据的概念?多少训练数据“足够好”?
- 如何计算要训练的“好”(提供良好的识别准确度(> 80%))模型需要多少个句子?
- 我如何知道模型是否已正确训练?模型中的系数会开始出现随机波动吗?如果是这样,我如何区分随机波动和模型更新引起的实际变化?
如果需要更多标签,请随时重新标记此问题。