连续数据堆积为零的 GLM

机器算法验证 广义线性模型 零通胀 有序的logit 回归策略
2022-03-03 01:58:05

我正在尝试运行一个模型来估计结核病、艾滋病等灾难性疾病对住院费用的影响程度。我将“每次住院费用”作为因变量,将各种个人标记作为自变量,几乎所有这些都是虚拟变量,例如性别、户主身份、贫困状况,当然还有一个虚拟变量是否您有病(加上年龄)和年龄的平方)和一堆交互项。

正如预期的那样,有大量(我的意思是很多)数据以零堆积(即,在 12 个月的参考期内没有住院支出)。处理此类数据的最佳方法是什么?

截至目前,我决定将成本转换ln(1+cost)为包含所有观察结果,然后运行线性模型。我在正确的轨道上吗?

3个回答

正如网站其他地方所讨论的,序数回归(例如,比例优势、比例风险、概率)是一种灵活且稳健的方法。分布允许不连续Y,包括极端结块。没有任何关于分布的假设Y对于单X. 零膨胀模型比半参数模型做出的假设要多得多。有关完整的案例研究,请参阅我的课程讲义第 15 章,网址为http://hbiostat.org/rms

序数模型的一大优势Y是你不需要知道如何转换Y在分析之前。

聚集在 0 被称为“零通货膨胀”。到目前为止,最常见的情况是计数模型,导致零膨胀泊松和零膨胀负二项式回归。然而,有一些方法可以用真实的正值来模拟零膨胀(例如零膨胀伽马模型)。

有关这些方法的回顾,请参阅Min 和 Agresti,2002 年,使用聚集为零的非负数据建模。

使用零膨胀泊松模型的建议是一个有趣的开始。它有一些好处,可以联合建模出现任何与疾病相关的成本的概率,以及如果你有任何疾病,这些成本会变成什么样的过程。它的局限性在于,它对结果的形状施加了一些严格的结构,以产生任何成本为条件(例如,特定的均值-方差关系和正整数结果……对于某些人来说,后者可以放宽)建模目的)。

如果您可以独立处理以入院流程为条件的与疾病相关的入院和与疾病相关的费用,您可以通过首先对 y/n 的二元过程进行建模来扩展这一点,您是否累积了与疾病相关的任何费用?这是一个简单的逻辑回归模型,允许您评估风险因素和患病率。鉴于此,您可以将分析限制在产生任何成本的个人子集,并使用大量建模技术对实际成本过程进行建模。泊松是好的,准泊松会更好(考虑到数据中小的未测量的协变来源以及与模型假设的偏离)。但是,对连续成本过程进行建模是有限度的。

如果您绝对需要对过程中参数的相关性进行建模,则可以使用 bootstrap SE 估计。我看不出这是无效的原因,但如果这可能是错误的,我会很想听听其他人的意见。总的来说,我认为这是两个独立的问题,应该这样对待才能做出有效的推论。