我有来自生物库的 50,000 个 DNA 样本。只有 2,200 个样本具有我想在神经网络中进行监督学习的标签(疾病)。
所以我的问题是,我需要在训练数据中包含多少非患病样本?如果患病样本是我的病例,我的对照组应该有多大?两倍大?一样大吗?一个好的比例应该是多少?
特征空间非常大,所以我担心训练时间。感觉没有必要包括所有其他 48,000 个控件。
是的,是的,我知道这将取决于我在模型中看到的准确性,但是什么是好的起始比率?
我有来自生物库的 50,000 个 DNA 样本。只有 2,200 个样本具有我想在神经网络中进行监督学习的标签(疾病)。
所以我的问题是,我需要在训练数据中包含多少非患病样本?如果患病样本是我的病例,我的对照组应该有多大?两倍大?一样大吗?一个好的比例应该是多少?
特征空间非常大,所以我担心训练时间。感觉没有必要包括所有其他 48,000 个控件。
是的,是的,我知道这将取决于我在模型中看到的准确性,但是什么是好的起始比率?
我不认为这样的问题真的有最佳答案。我建议对照组至少应为 50%,但除此之外的任何东西都会更好。对于 NN 模型,您为其训练提供的示例越多,它学习的模式就越多,它就越准确。如果你可以使用整套,那就去做吧!
这实际上取决于时间限制和处理能力。尝试从一个小样本开始,可能是几十个或几百个样本,看看需要多长时间。然后尝试大约两倍大小的样本并再次检查。然后,您可以推断在给定时间限制下可以使用的样本大小。
如果您使用这种方法,请确保使用分层 k 折拆分进行交叉验证。这将保持样本中的相对分布。希望这可以帮助。