数据挖掘 - 在机器学习中，在选择测试集数据时使用分层抽样有什么意义？ - 吾爱随笔录

数据挖掘机器学习采样

2022-02-28 04:57:33

我目前正在通过 Aurelien Geron 的这本书“Hands-On Machine Learning with Sci-kit learn and Tensorflow”学习机器学习。

在第 76 和 77 页中，作者谈到了使用分层抽样，以便您的测试集更能代表整个数据。我真的不明白这一点，因为它不会影响你的训练模型的准确性？或者选择更好的测试集将如何影响您的训练模型的准确性？

1个回答

当你的数据分布是平衡的或者你有足够的每个类的样本时，正常的 shuffle split 会很好地工作。但是，如果您的数据分布不平衡并且其中一个类别属于少数，您可以进行分层抽样，以确保您的训练和测试拆分代表数据的真实性质。有关更多详细信息，请查看此处。

其它你可能感兴趣的问题