我有一个关于Amelia包裹的一般性问题。我不是数学家或统计学家,但我必须使用 R 并估算和分析一些数据,而 Amelia 显示的结果符合我的预期。我很快就会为我的选择辩护,但我还没有完全理解 Amelia 的所作所为。
我对 Amelia 插补如何工作的尽可能简单的解释特别感兴趣。我读过它使用基于引导的算法,但它是如何选择值的?
数据主要值>0(化学浓度、水温和pH值)。
我有一个关于Amelia包裹的一般性问题。我不是数学家或统计学家,但我必须使用 R 并估算和分析一些数据,而 Amelia 显示的结果符合我的预期。我很快就会为我的选择辩护,但我还没有完全理解 Amelia 的所作所为。
我对 Amelia 插补如何工作的尽可能简单的解释特别感兴趣。我读过它使用基于引导的算法,但它是如何选择值的?
数据主要值>0(化学浓度、水温和pH值)。
Amelia 假设数据遵循多元正态分布,因此有关数据中关系的所有信息都可以仅通过均值和协方差进行汇总。当数据不完整时,Amelia 使用众所周知的 EM 算法来查找均值和协方差的校正估计。有关详细信息,请参见 Little 和 Rubin (2002)。
在其原始形式中,EM 估计不能用于创建多重插补,因为估计不反映它们是从有限样本中估计的事实。为了解决这个问题,Amelia 首先取 m 个 bootstrap 样本,并将 EM 算法应用于每个 bootstrap 样本。现在,均值和方差的 m 个估计值将不同。第一组估计值用于通过回归分析的形式得出第一组估算值,第二组估算值用于计算第二组估算值,以此类推。
由于 Amelia 假设一个多元正态分布,因此当您的数据近似正态分布(可能在转换之后),并且当您从完整数据分析中的数据计算的统计数据接近分布中心时,它的效果最佳,例如均值、模式或回归权重。