所以我遇到了一篇生物信息学论文,在那里我找到了一行内容:
在交叉验证中使用具有相同数量的正例和负例的训练集的一个潜在问题是,它可以人为地夸大性能估计,因为误报分类的数量与分类的示例数量成正比。因此,将这些方法应用于生物体中的所有蛋白质可能会导致大量假阳性鉴定。
我无法理解平衡数据集的分类如何成为问题。有人可以向我解释一下吗?
所以我遇到了一篇生物信息学论文,在那里我找到了一行内容:
在交叉验证中使用具有相同数量的正例和负例的训练集的一个潜在问题是,它可以人为地夸大性能估计,因为误报分类的数量与分类的示例数量成正比。因此,将这些方法应用于生物体中的所有蛋白质可能会导致大量假阳性鉴定。
我无法理解平衡数据集的分类如何成为问题。有人可以向我解释一下吗?
实际上,我想这在很大程度上取决于真实的数据集及其分布。我猜论文提到的是,在每个类的分布发生变化的情况下,你的模型将无法正常工作,因为改变了每个类的分布。在像疾病预测这样的情况下,每个类别的数量因不同的地方而异,在美国训练的模型在非洲国家根本行不通。原因是类的分布发生了变化。所以在实践中通常负类和正类不平衡的这种情况下,平衡它们会导致分布变化的问题。在这些情况下,人们通常使用不平衡的真实数据集,并使用F1分数进行评估。