是否存在用于训练统计模型的“足够”数据的概念?

机器算法验证 造型 隐马尔可夫模型 高斯混合分布
2022-03-28 16:41:39

我从事很多统计建模工作,例如隐马尔可夫模型和高斯混合模型。我发现在每种情况下训练好的模型都需要大量(HMM 超过 20000 个句子)数据,这些数据来自类似的环境作为最终用途。我的问题是:

  1. 文献中是否存在“足够”训练数据的概念?多少训练数据“足够好”?
  2. 如何计算要训练的“好”(提供良好的识别准确度(> 80%))模型需要多少个句子?
  3. 我如何知道模型是否已正确训练?模型中的系数会开始出现随机波动吗?如果是这样,我如何区分随机波动和模型更新引起的实际变化?

如果需要更多标签,请随时重新标记此问题。

1个回答

您可以将数据集分割成具有 10%、20%、30%、...、100% 数据的连续子集,并为每个子集使用 k 折交叉验证或引导法估计估计器准确度的方差。如果您有“足够”的数据,则绘制方差应显示一条递减的单调线,该单调线应在 100% 之前达到平稳:添加更多数据不会以任何显着方式降低估计器准确性的方差。