如何从条件分布中实现单一插补?

数据挖掘 机器学习 缺失数据 数据插补
2022-03-02 20:58:32

中提取缺失值的方法定义为: P(xmis|xobs;θ)在此处输入图像描述

我没有找到这种方法的任何代码实现。我的问题是,如何实现它?我们应该将分布与假设区间相结合吗?否则,这只是应该理解的直观数学表示,但实现方式不同。xmis

[*] Theodoridis, S. 和 Koutroumbas, K. “模式识别。” 第四版,9781597492720,2008

1个回答

这只是对一组用于填补缺失数据的策略的直观解释。

在实践中,分布是未知的,最多可以估计。估计此概率的最佳方法是特定于用例的。了解如何收集训练数据可以帮助您估计/定义这种条件分布。P(xmis|xobs;θ)

在实践中,我们通常不会试图得到一个好的估计。保持简单并假设所有特征都是从正态分布中采样的,这可能会让您入门。

这是遵循其中xmisN(μ,σ)

  • μ=iNxobs,iN
  • σ=iN(xobs,iμ)2N1

. 然而,这样的假设很少是现实的,并且会保证好的模型。看到这个