我正在尝试运行一个模型来估计结核病、艾滋病等灾难性疾病对住院费用的影响程度。我将“每次住院费用”作为因变量,将各种个人标记作为自变量,几乎所有这些都是虚拟变量,例如性别、户主身份、贫困状况,当然还有一个虚拟变量是否您有病(加上年龄)和年龄的平方)和一堆交互项。
正如预期的那样,有大量(我的意思是很多)数据以零堆积(即,在 12 个月的参考期内没有住院支出)。处理此类数据的最佳方法是什么?
截至目前,我决定将成本转换ln(1+cost)
为包含所有观察结果,然后运行线性模型。我在正确的轨道上吗?