我有一个关于在存在强聚类的数据中使用正确的引导技术的问题。
我的任务是评估保险索赔数据上的多元混合效应预测模型,方法是根据最近的索赔数据对当前基线模型进行评分,以确定该模型预测哪些护理事件包含最高频率的会话(上第 95 个百分位)。敏感性、特异性和阳性预测值 (PPV) 将用于评估模型的有效性。
自举似乎是建立灵敏度、特异性和 PPV 百分比置信区间的正确方法。不幸的是,考虑到索赔数据是 1) 与护理提供者相关的,2) 分组到护理事件中,并且在护理事件的前几个月中更频繁地访问(因此存在一些自相关),因此幼稚的引导是不合适的。移动块引导技术的变化在这里是否合适?
或者也许一个三步引导程序会起作用:1)从数据中不同的提供者那里替换样本,然后 2)从选定的提供者的不同护理事件中替换样本,然后 3)从每个不同的声明中替换样本选定的剧集。
非常感谢您的任何建议!