我在一家医疗保健公司工作,在我们的成员满意度团队中不断应用权重以将样本与我们服务区域的人口相匹配。这对于旨在解释变量之间关系大小的可解释建模非常重要。我们还在其他任务中使用了大量 ML,但您似乎想知道在使用机器学习进行预测时这是否重要。
正如您所暗示的那样,大多数机器学习技术的开发并不是为了解释关系,而是为了预测目的。虽然有代表性的样本很重要,但它可能并不重要……直到您的性能下降。
如果算法有足够的样本来学习受访者类型,他们将能够很好地预测新受访者的类别(分类)/价值(回归)。例如,如果您有一个包含 4 个变量(身高、体重、性别和年龄)的数据集,您选择的算法将根据这些特征学习某些类型的人。假设人口中的大多数人是女性,身高 5 英尺 4 英寸,35 岁,体重 130 磅(不是事实,只是顺其自然),我们正在尝试预测性别。现在假设我的样本在比例上对这一人口统计的代表性较低, 但仍然有足够高的这种类型的人 (N)。我们的模型已经了解了这种类型的人的样子,尽管这种类型的人在我的样本中没有很好地代表。当我们的模型看到一个具有这些特征的新人时,它将知道哪个标签(性别)与该人最相关。如果我们的样本显示这些特征与女性的相关性高于男性,并且与人群相匹配,那么一切都很好。当样本的结果变量不能很好地代表总体以预测不同的类别/值时,就会出现问题。
因此,归根结底,在代表性数据上测试您的预测性 ML 模型是您可以找出是否有问题的地方。但是,我认为以这种有偏见的方式进行采样以致预测会受到很大影响的情况很少见。如果在测试时准确度/kappa 统计量/AUC 较低或 RMSE 较高,那么在您有足够数据的情况下,您可能希望剔除那些过度代表感兴趣的人口统计数据的人。