我有一个关于水库采样的一般性问题。当我使用这种方法对一个非常大的数据集进行采样以训练机器学习分类算法时,我很好奇如何使我的管道对样本间类分布的波动具有鲁棒性。
例如,假设我正在研究一个二元分类问题。我想采样一个相对较小的数据子集来评估我的算法,所以我使用了水库采样。然而,在我看来(我认为我可能是错的)我可能会偶然抽取一个样本,其中类分布与在更大的数据群体中看到的有显着不同。如果这是一个正确的推论,谁能告诉我如何纠正这种情况?如果水库采样不是答案,那么在这种情况下我可以利用哪些其他程序(除了使用分布式环境)?
我正在学习,所以一些解释、提示和方向将不胜感激。