我目前正在处理大量健康保险索赔数据,其中包括一些实验室和药房索赔。然而,数据集中最一致的信息由诊断 (ICD-9CM) 和程序代码 (CPT、HCSPCS、ICD-9CM) 组成。
我的目标是:
- 确定慢性肾病等疾病最有影响的前兆疾病(合并症);
- 根据患者过去的状况,确定患者出现疾病的可能性(或概率);
- 执行与 1 和 2 相同的操作,但要进行程序和/或诊断。
- 最好是医生可以解释结果
我看过遗产健康奖里程碑论文之类的东西,并从中学到了很多东西,但它们专注于预测住院情况。
所以这是我的问题:您认为哪些方法对此类问题有效?而且,哪些资源对于学习与医疗保健和临床医学相关的数据科学应用和方法最有用?
编辑#2 添加明文表:
CKD 是目标疾病,“慢性肾病”,“.any”表示他们在任何时候都已获得该疾病,“.isbefore.ckd”表示他们在首次诊断 CKD 之前就已患有该疾病。其他缩写对应于 ICD-9CM 代码组标识的其他条件。此分组发生在导入过程中的 SQL 中。除患者年龄外,每个变量都是二进制的。