数据挖掘 - 聚合稀疏数据 - 吾爱随笔录

我不确定标题是否准确反映了我的问题，但我本质上想将一组来自不同数据源的相似性质的指标汇总为一个指标。假设我们正在测量来自 SourceA 的 MetricA，来自 SourceB 的 MetricB，......以及来自 SourceN 的 MetricN，这些都是在相同的一般人群中采样的。不能保证样本的联合至少会覆盖总体中的所有人。由于不同来源的采样率和频率不同，我想进行某种程度的标准化，以便在顶部对其进行总结并随着时间的推移对其进行跟踪。

不过，我不确定提出权重的最佳方法是什么。你们中是否有人遇到过类似的问题，或者可能有一些论文找到了避免/最小化偏见的合理方法？

非常感谢您的建议！