我对看似简单的问题感到震惊,但我已经好几周没有找到合适的解决方案了。
我有相当多的民意调查/调查数据(成千上万的受访者,比如每个数据集 50k),来自我希望称为复杂设计的调查,包括权重、分层、特定路由等。对于每个受访者,有数百个变量,例如人口统计(年龄、地区......),然后主要是二元(最多,分类)变量。
我更多来自计算机科学/机器学习背景,我必须学习很多关于经典调查统计和方法的知识。现在我想将经典机器学习应用于这些数据(例如,预测受访者子集的一些缺失值 - 基本上是分类任务)。但是,请注意,我找不到合适的方法来做到这一点。我应该如何合并这些分层、权重或路由(例如:如果问题 1 用选项 2 回答,则问问题 3,否则跳过它)?
简单地应用我的模型(树、逻辑回归、SVM、XGBoost ......)似乎很危险(而且,它们在大多数情况下都失败了),因为它们通常假设数据来自简单的随机样本或 iid。
很多方法至少有权重,但没有多大帮助。此外,目前还不清楚我应该如何将调查定义给出的不平衡类别和权重结合在一起,而不是谈论那些分层的东西。此外,结果模型应该经过很好的校准——预测的分布应该非常接近原始分布。良好的预测性能并不是这里的唯一标准。我更改了优化指标以考虑到这一点(例如预测分布与真实分布的距离+ 准确度/MCC),它在某些情况下有所帮助,为什么会削弱其他情况下的性能。
有一些规范的方法来处理这个问题吗?对我来说,这似乎是一个被严重低估的研究领域。IMO 许多调查可以从 ML 的力量中受益,但没有来源。就像这两个世界一样,彼此没有互动。
到目前为止我发现了什么:
- http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/
例如,我仍然只知道一篇论文 (Toth & Eltinge, 2011) 当你的数据来自复杂的样本调查时如何做回归树。
- http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine
在最近对 150 篇抽样研究论文的荟萃分析中,分析了具有复杂抽样设计的多项调查,发现由于对复杂样本设计特征的无知或错误使用而导致的分析错误很常见。
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
相关的简历问题,但没有一个包含任何可用的答案如何解决这个问题(没有答案,不是我要求的,或者提出误导性的建议):