假设我有一个数据集,其中包含 10 个变量(“A”到“J”)中的 1000 个观察值。我对前 8 个变量中的每一个都有 1000 个响应/测量值,通过“H”,但只有前 500 个“I”的观测值没有丢失,只有最后 500 个“J”的观测值没有丢失——有没有我对最后两个变量 I 和 J 都进行测量的观察结果。
因此,如果我计算(成对)相关性,我有一个完整的相关矩阵,只有 I 和 J 之间的相关性缺失。假设我想在这个相关矩阵上运行主成分分析或其他一些这样的缩放过程。
我想我想做的是:
- 随机生成(可能来自 [-1, 1] 上的某个分布,或者可能通过从相关矩阵其余部分中的现有值中采样)I 和 J 之间的“发明”相关性。
- 把它放在相关矩阵中。
- 使用这个发明值在相关矩阵上运行 PCA。
- 多次重复步骤 1 - 3。
- 基于“伪自举”迭代,评估大量 PCA 的集体结果,查看载荷、分数、特征值等的均值和方差。
问题:
- 有没有更好的方法来处理相关矩阵中的(a)缺失值?
- 有没有用随机发明值替换这种(a)缺失值的先例?如果是这样,它叫什么?
- 这与引导程序有关吗?
非常感谢,提前。
编辑:问题4。这是一种合理的归责方法吗?