使用加权/复杂调查数据进行机器学习

机器算法验证 机器学习 民意调查 加权抽样 分层
2022-03-04 06:39:55

我对各种具有全国代表性的数据做了很多工作。这些数据源具有复杂的调查设计,因此分析需要指定分层和权重变量。在我研究领域内的数据源中,机器学习工具尚未应用于它们。一个明显的原因是机器学习方法(目前)没有考虑权重和分层变量。

加权/分层分析的目标是获得调整后的人口估计,这与机器学习的目标/目的不同。人们对使用具有全国代表性的数据源并忽略权重和分层变量有什么想法?换句话说,如果您回顾使用具有全国代表性的数据但忽略了权重和分层变量的机器学习研究,假设研究人员/作者对这个方法决定是先行的,并且没有提出任何主张,您会怎么想具有全国代表性的结果?

提前致谢!

1个回答

我在一家医疗保健公司工作,在我们的成员满意度团队中不断应用权重以将样本与我们服务区域的人口相匹配。这对于旨在解释变量之间关系大小的可解释建模非常重要。我们还在其他任务中使用了大量 ML,但您似乎想知道在使用机器学习进行预测时这是否重要。

正如您所暗示的那样,大多数机器学习技术的开发并不是为了解释关系,而是为了预测目的。虽然有代表性的样本很重要,但它可能并不重要……直到您的性能下降。

如果算法有足够的样本来学习受访者类型,他们将能够很好地预测新受访者的类别(分类)/价值(回归)。例如,如果您有一个包含 4 个变量(身高、体重、性别和年龄)的数据集,您选择的算法将根据这些特征学习某些类型的人。假设人口中的大多数人是女性,身高 5 英尺 4 英寸,35 岁,体重 130 磅(不是事实,只是顺其自然),我们正在尝试预测性别。现在假设我的样本在比例上对这一人口统计的代表性较低, 但仍然有足够高的这种类型的人 (N)。我们的模型已经了解了这种类型的人的样子,尽管这种类型的人在我的样本中没有很好地代表。当我们的模型看到一个具有这些特征的新人时,它将知道哪个标签(性别)与该人最相关。如果我们的样本显示这些特征与女性的相关性高于男性,并且与人群相匹配,那么一切都很好。当样本的结果变量不能很好地代表总体以预测不同的类别/值时,就会出现问题。

因此,归根结底,在代表性数据上测试您的预测性 ML 模型是您可以找出是否有问题的地方。但是,我认为以这种有偏见的方式进行采样以致预测会受到很大影响的情况很少见。如果在测试时准确度/kappa 统计量/AUC 较低或 RMSE 较高,那么在您有足够数据的情况下,您可能希望剔除那些过度代表感兴趣的人口统计数据的人。