训练数据应该有多大?

数据挖掘 数据挖掘 数据集 训练
2022-02-13 09:16:15

我正在解决一个与医学有关的问题,我从每个病人那里得到大约 100 个特征。这是一个分类疾病问题,但是测量需要很多时间并且也需要金钱。

训练数据的最佳大小是多少?我知道我应该收集尽可能多的数据,但是有什么经验建议吗?

3个回答

虽然其他答案没有错,但它们并没有涉及生物信息学的任何内容。我会详细介绍。

在生物信息学中,简单地询问训练集的大小是没有意义的。您需要更深入地了解生物信息学才能回答这个问题。有一个很好的参考:使用 SomaticSeq为您准确检测体细胞突变的集成方法。

该项目的目标是构建一个梯度增强机器,用于在给定对齐文件的情况下对体细胞突变进行分类。这与您正在做的事情非常接近。

现在,您想知道训练规模吗?你应该问自己以下问题:

  • 测序错误
  • 读取
  • 测序深度
  • 灵敏度
  • F1分数
  • 等位基因频率

在下一代测序中,您的测序仪总是会给您错误。您检测这些错误的管道有多可靠?

你的阅读对你的问题有多好?例如,如果您正在检测与结构变异相关的疾病,您可能需要更多样本来弥补短读数。

你的测序深度是多少?在我引用的论文中,它们的深度大约是 30 倍。除非您非常了解自己的深度,否则谈论训练规模是没有意义的。

您的测序是否很好地覆盖了您感兴趣的基因组区域?

灵敏度和 F1 分数。您可以通过绘制类似于论文中的 F1 曲线来获得好主意:

在此处输入图像描述

您预期的等位基因频率范围是多少?如果您有接近 0.5 的值(即:最大杂合度),那么使用较小的样本量可能是安全的。但是,如果您尝试检测一种罕见疾病,例如图中的 <0.1,您将需要更多样本并且很可能需要更多特征。

根据经验,我们通常使用尖峰标准来测量灵敏度。一旦你绘制了对训练规模的敏感度,你就会知道使用什么训练规模来实现你正在寻找的任何敏感度。一个典型的工具是 ROC。

样本数与特征数之比应大于 10:1 才能获得足够好的结果。但这个比率也因应用而异。如果训练数据非常少:确保数据集是平衡的,尝试集成方法,仔细选择特征,执行交叉验证

首先,对数据大小的关注是因为它可能对覆盖模型造成错误。考虑到这一概念,您可能希望使用当前数据测量模型的偏差和方差,了解模型的适合度,然后从那里获取。

这是我写的一篇文章,它可以帮助你做同样的事情:机器学习:你的数据应该有多大?

这篇文章谈到

  1. 偏差和欠拟合
  2. 方差和过拟合
  3. 偏差-方差权衡和最优复杂度

它的结论是:

  • 更多的样本数据总是很强大,但并不总是正确的答案。
  • 当您增加样本数据时,请确保调整参数空间以最小化错误。