机器算法验证 - 适合集群数据的引导技术？ - 吾爱随笔录

我有一个关于在存在强聚类的数据中使用正确的引导技术的问题。

我的任务是评估保险索赔数据上的多元混合效应预测模型，方法是根据最近的索赔数据对当前基线模型进行评分，以确定该模型预测哪些护理事件包含最高频率的会话（上第 95 个百分位）。敏感性、特异性和阳性预测值 (PPV) 将用于评估模型的有效性。

自举似乎是建立灵敏度、特异性和 PPV 百分比置信区间的正确方法。不幸的是，考虑到索赔数据是 1) 与护理提供者相关的，2) 分组到护理事件中，并且在护理事件的前几个月中更频繁地访问（因此存在一些自相关），因此幼稚的引导是不合适的。移动块引导技术的变化在这里是否合适？

或者也许一个三步引导程序会起作用：1）从数据中不同的提供者那里替换样本，然后 2）从选定的提供者的不同护理事件中替换样本，然后 3）从每个不同的声明中替换样本选定的剧集。

非常感谢您的任何建议！