我有一个临床试验数据集,其中在一段时间内以特定时间间隔(访问)记录患者详细信息。每次访问都将包含访问前经历的所有不良事件、服用的任何药物和实验药物剂量的数据记录,无特定顺序。例如,访问可以记录访问前一周经历的 5 次不良事件(恶心、头痛、高血压等)、实验药物的剂量和为避免不良事件而给予的一些药物。
现在我需要在患者下次就诊之前预测其不良事件的发生,并且还需要知道哪些药物会导致其中一些不良反应。
我希望我已经清楚地解释了这个问题。什么机器学习/统计方法最能解决这个问题?
我有一个临床试验数据集,其中在一段时间内以特定时间间隔(访问)记录患者详细信息。每次访问都将包含访问前经历的所有不良事件、服用的任何药物和实验药物剂量的数据记录,无特定顺序。例如,访问可以记录访问前一周经历的 5 次不良事件(恶心、头痛、高血压等)、实验药物的剂量和为避免不良事件而给予的一些药物。
现在我需要在患者下次就诊之前预测其不良事件的发生,并且还需要知道哪些药物会导致其中一些不良反应。
我希望我已经清楚地解释了这个问题。什么机器学习/统计方法最能解决这个问题?
您所描述的称为多标签分类。您想使用一组给定的输入指标(以前的不良反应、处方药、剂量水平)预测一组给定的可能输出标签(所有可能的不良反应)中的一些输出标签(不良反应)。
对于最后两个功能,我会将它们组合成一个功能,如果没有规定药物,则剂量明显为 0,否则更高。
在 R 中,您可以将mlR 包用于此预测阶段。您也可以使用此包中的generateFilterValues () 函数来提取特征重要性,但是我不确定这是否适用于多标签,此外这只会告诉您分类器认为您的输入特征对相对于所有其他输入特征的输出标签。它不会为您提供其他有价值的信息,例如,在特定药物的剂量水平下,阴性症状的可能性增加最多。
同样,我不确定这将如何与多标签分类一起使用,因为我对它们没有任何经验,但请看一下绘制部分依赖图以获取有关每个输入特征如何对您的输出标签做出贡献的最后一点信息.