介绍
当我们的训练和测试集只是未知人群的样本时,我理解预处理步骤可能导致的数据泄漏问题。预处理参数应仅从训练集计算,然后我们只需将相同的程序应用于验证/测试集,因为这将是处理来自未知群体的任何其他样本的方式(例如,在生产阶段)。
问题
我们手头有全体人口的情况如何?我们可以从整个人口中计算预处理参数(缩放因子、编码等)吗?
额外的上下文
我们拥有整个人口,建模过程将取决于用户输入。训练集由用户输入定义,训练后的模型用于对总体进行分类。
当我们的训练和测试集只是未知人群的样本时,我理解预处理步骤可能导致的数据泄漏问题。预处理参数应仅从训练集计算,然后我们只需将相同的程序应用于验证/测试集,因为这将是处理来自未知群体的任何其他样本的方式(例如,在生产阶段)。
我们手头有全体人口的情况如何?我们可以从整个人口中计算预处理参数(缩放因子、编码等)吗?
我们拥有整个人口,建模过程将取决于用户输入。训练集由用户输入定义,训练后的模型用于对总体进行分类。
如果您有整个人口,则无需推理。因此,数据泄漏不是问题。您可以对数据进行任何转换,而不用担心它对预测的影响,因为没有预测步骤。
每当您使用来自测试集的一些输入来制作模型时,都会出现数据泄漏。例子: