在机器学习中,在选择测试集数据时使用分层抽样有什么意义?

数据挖掘 机器学习 采样
2022-02-28 04:57:33

我目前正在通过 Aurelien Geron 的这本书“Hands-On Machine Learning with Sci-kit learn and Tensorflow”学习机器学习。

在第 76 和 77 页中,作者谈到了使用分层抽样,以便您的测试集更能代表整个数据。我真的不明白这一点,因为它不会影响你的训练模型的准确性?或者选择更好的测试集将如何影响您的训练模型的准确性?

1个回答

当你的数据分布是平衡的或者你有足够的每个类的样本时,正常的 shuffle split 会很好地工作。但是,如果您的数据分布不平衡并且其中一个类别属于少数,您可以进行分层抽样,以确保您的训练和测试拆分代表数据的真实性质。有关更多详细信息,请查看此处