我正在使用 Stata 中的线性混合效应模型。数据集包含三个级别的 100k 观测值,嵌套在 500 个区域中,嵌套在 70 个区域中。
目前我的建模策略是使用 lev2 和 lev3 随机截取的三级模型(lev2 嵌套在 lev3 中):
mixed y i.x1 i.x2 || lev3: || lev2:
我的结果 y 被对数转换以使其更加正常(成本数据严重倾斜)。
但是,数据集包含约 2% 的观察结果,其中结果为零且无法进行对数转换。
为了能够处理零结果,我还可以使用什么其他解决方案?
更新 1:在Stata 博客上的这篇文章之后,可能可以使用泊松模型:
meglm y i.x1 i.x2 || lev3: || lev2:, family(poisson) link(log) vce(robust)
但是,此解决方案可能不适用于多级框架。
更新 2:重新审视这个问题,我遇到了几篇使用负二项式回归分析成本的论文。示例可以在这里找到(更多关于PubMed
Langton JM、Reeve R、Srasuebkul P、Haas M、Viney R、Currow D 等。(2016) 有癌症病史的老年死者生命最后 6 个月的健康服务使用和费用:从健康支付者的角度进行的综合分析。Br J 癌症杂志,114(11):1293–302。http://dx.doi.org/10.1038/bjc.2016.75