热甲板插补,“它保留了项目值的分布”,这怎么可能?

机器算法验证 缺失数据 数据插补
2022-04-03 10:13:55

我在这个链接中读到,在第 2 节下,关于热甲板的第一段“它保留了项目值的分布”。

我不明白,如果一个相同的捐赠者用于许多接受者,那么这可能会扭曲分配或者我在这里错过了什么?

此外,Hot Deck 插补的结果必须取决于用于将捐赠者与接受者匹配的匹配算法?

更一般地说,有没有人知道将热甲板与多重插补进行比较的参考资料?

1个回答

缺失值的热甲板插补是最简单的单一插补方法之一。

该方法 - 直观地明显 - 是具有缺失值的案例从与缺失案例最大相似的案例中随机选择的案例中接收有效值,基于用户指定的一些背景变量(这些变量也称为“甲板变量”)。捐赠者案例库称为“甲板”。

在最基本的场景中 - 没有背景特征 - 您可以将属于相同的n案例数据集声明为只有“背景变量”;那么插补将只是从n-m有效案例中随机选择作为m缺失值案例的捐赠者。随机替换是热卡组的核心。

为了考虑相关性影响值的想法,使用了对更具体的背景变量的匹配。例如,您可能希望将 30-35 岁的白人男性的缺失反应从属于该特定特征组合的供体中估算。背景特征应该 - 至少在理论上 - 与分析的特征(待估算)相关;但是,该关联不应该是研究的主题——否则我们正在通过插补进行污染。

Hot-deck 插补仍然很流行,因为它的理念很简单,同时也适用于处理缺失值的方法(如列表删除均值/中值替换)由于缺失分配在数据中而无法使用的情况不混乱——不符合 MCAR 模式(完全随机缺失)。Hot-deck 相当适合 MAR 模式(对于 MNAR,多重插补是唯一合适的解决方案)。Hot-deck 是随机借用的,不会偏向边际分布,至少可能是这样。然而,它可能会影响回归参数的相关性和偏差;然而,这种影响可以通过更复杂/复杂的热甲板程序版本来最小化。

hot-deck imputation的一个缺点是它要求上面提到的背景变量肯定是分类的(因为是分类的,所以不需要特殊的“匹配算法”);定量甲板变量 - 将它们离散化为类别。至于具有缺失值的变量 - 它们可以是任何类型,这是该方法的优势(许多替代形式的单一插补只能插补到定量或连续特征)。

hot-deck 插补的另一个弱点是:当您在多个变量(例如 X 和 Y)中插补缺失时,即使用 X 运行插补函数,然后使用 Y,如果情况 i 在两个变量中均缺失,则插补Y 中的 i 与 X 中的 i 中的估算值无关;换句话说,在估算 Y 时没有考虑 X 和 Y 之间可能的相关性。换句话说,输入是“单变量的”,它没有识别“依赖”的潜在多变量性质(即接收者,具有缺失值)变量。1

不要滥用热甲板插补。建议仅在变量中缺失不超过 20% 的案例时才对缺失进行任何插补。潜在捐助者的数量必须足够大。如果有一个捐赠者,如果它是非典型病例,则将非典型性扩展到其他数据是有风险的。

选择有或没有更换的供体无论哪种方式都可以做到。在不可替代的情况下,随机选择的捐赠者案例只能对一个接受者案例进行估算。在允许替换的情况下,如果再次随机选择一个供体病例,则可以再次成为供体,从而归结为几个受体病例。如果接受者案例很多,而适合推算的捐赠者案例很少,则第二种方案可能会导致严重的分配偏差,因为一​​个捐赠者会将其价值推算给许多接受者;而当有很多供体可供选择时,这种偏差是可以容忍的。无替代方式不会导致偏差,但如果捐赠者很少,可能会留下许多案例无法估算。

添加噪音经典的 hot-deck 插补只是按原样借用(复制)一个值。但是,如果值是定量的,则可以设想将随机噪声添加到借用/推算值。

甲板特性的部分匹配如果有多个背景变量,则如果捐赠者案例与所有背景变量匹配的一些接受者案例,则它有资格进行随机选择。具有超过 2 或 3 个此类甲板特征或当它们包含许多类别时,可能根本找不到合格的捐助者。为了克服这一问题,有可能只需要部分匹配以使捐赠者符合条件。例如,需要匹配k 所有g甲板变量中的任何一个。或者,需要匹配卡组变量列表的k 第一个。g更大的事情发生了k对于潜在的捐赠者来说,其被随机选择的可能性就越高。[部分匹配以及替换/不替换在我的 SPSS 热停靠宏中实现。]


1如果您坚持考虑到这一点,您可能会被推荐两种选择:(1) 在估算 Y 时,将已经估算的 X 添加到背景变量列表中(您应该将 X 设为分类变量)并使用 hot-deck允许对背景变量进行部分匹配的插补函数;(2) 将在 X 的插补中出现的插补解决方案扩展到 Y,即使用相同的施主案例。这个第二个选择是快速和容易的,但是它是对 X 进行的插补的严格复制——两个插补过程之间的独立性在这里没有保留——因此这个选择不好

可以做一个“受约束的”版本的 hot-deck 插补,它考虑到插补变量(具有缺失值的变量)本身之间的相关性或关联性。一种可能的方法是将这些变量安排为第二组特殊的背景变量(如果需要,在分箱之后)。[我已经为 SPSS 编写了这样的插补程序,您可能想阅读可在我的网站上下载的“插补缺失数据”Word 文档中的算法。]


热甲板插补以及其他一些单一插补方法。Hot-deck 插补不会对缺失值进行建模或估计值,它会从大量现有有效案例中随机选择它们,并在需要时在限制条件下进行选择。

在此处输入图像描述