适合集群数据的引导技术?

机器算法验证 引导程序 随机效应模型 混合模式
2022-01-26 12:09:43

我有一个关于在存在强聚类的数据中使用正确的引导技术的问题。

我的任务是评估保险索赔数据上的多元混合效应预测模型,方法是根据最近的索赔数据对当前基线模型进行评分,以确定该模型预测哪些护理事件包含最高频率的会话(上第 95 个百分位)。敏感性、特异性和阳性预测值 (PPV) 将用于评估模型的有效性。

自举似乎是建立灵敏度、特异性和 PPV 百分比置信区间的正确方法。不幸的是,考虑到索赔数据是 1) 与护理提供者相关的,2) 分组到护理事件中,并且在护理事件的前几个月中更频繁地访问(因此存在一些自相关),因此幼稚的引导是不合适的。移动块引导技术的变化在这里是否合适?

或者也许一个三步引导程序会起作用:1)从数据中不同的提供者那里替换样本,然后 2)从选定的提供者的不同护理事件中替换样本,然后 3)从每个不同的声明中替换样本选定的剧集。

非常感谢您的任何建议!

1个回答

您建议的第二种方法似乎是合理的,但事实证明,在引导分层数据时,最好只在最高级别进行替换采样,而不在其余子级别进行替换。Ren等人(2010)的模拟显示了这一点: http ://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007) 从理论上研究了 2 级数据集的不同方法,发现在两个级别进行替换抽样并不是一个好主意。
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

您提到的自相关是一个严重的问题。另一方面,从护理事件中选择不替换将保留自相关结构,因此这可能不是一个大问题。