我目前正在通过 Aurelien Geron 的这本书“Hands-On Machine Learning with Sci-kit learn and Tensorflow”学习机器学习。
在第 76 和 77 页中,作者谈到了使用分层抽样,以便您的测试集更能代表整个数据。我真的不明白这一点,因为它不会影响你的训练模型的准确性?或者选择更好的测试集将如何影响您的训练模型的准确性?
我目前正在通过 Aurelien Geron 的这本书“Hands-On Machine Learning with Sci-kit learn and Tensorflow”学习机器学习。
在第 76 和 77 页中,作者谈到了使用分层抽样,以便您的测试集更能代表整个数据。我真的不明白这一点,因为它不会影响你的训练模型的准确性?或者选择更好的测试集将如何影响您的训练模型的准确性?
当你的数据分布是平衡的或者你有足够的每个类的样本时,正常的 shuffle split 会很好地工作。但是,如果您的数据分布不平衡并且其中一个类别属于少数,您可以进行分层抽样,以确保您的训练和测试拆分代表数据的真实性质。有关更多详细信息,请查看此处。