用协变量预测时间数据集的二分结果

机器算法验证 回归 物流 预测 随机过程
2022-03-27 14:45:07

我有一组数据,包括患者在各自住院期间的结果和随时间变化的变量。最后一天有一个二分法的结果。每个患者的住院时间可能不同。我最感兴趣的是制作一个预测模型,就像使用标准回归一样。

我相信患者可能会发展出一些“动力”,这往往会导致一种结果或另一种结果。

我之前对这些数据建模的尝试仅限于逻辑回归。我开始考虑 lmer 和朋友们,但我不确定它是否适合及时的方向性。此外,我已经考虑了一些随机方法,但是在将其绑定到二元结果甚至考虑协变量方面,我没有取得太大进展。

任何建议都将受到欢迎。

虚构数据:

Patient No. | Day of Stay | Outcome | Age | Gender | Blood Value | ...
         1  |           1 |       - |  70 |      M |       123.1 | ...
         1  |           2 |       - |  70 |      M |       134.2 | ...
         1  |         ... |     ... | ... |    ... |         ... | ...
         1  |          10 |       1 |  70 |      M |       148.3 | ...
           ...           ...       ...   ...      ...           ...
       100  |           1 |       - |  54 |      F |        98.3 | ...
       100  |           2 |       - |  54 |      F |        95.2 | ...
       100  |         ... |     ... | ... |    ... |         ... | ...
       100  |           6 |       0 |  54 |      F |        54.1 | ...
2个回答

如果你有一个 LARGE 数据集,机器学习文献中可能有一些东西可以帮助你。将其视为分类问题。但由于这是一个医学例子,我怀疑患者总数相当少。

在这种情况下,您最大的希望在于能够为时间相关的东西指定一个模型。例如,如果一个简单的回归将 Day 与 Blood Value 相关联,您可以将估计的斜率参数与结果进行比较:2 组;简单的 t 检验。如果您有其他协变量,您也可以包括它们。然后,您将使用模型中的斜率参数和协变量进行逻辑回归。如果需要,您可以拟合更复杂的函数形式。

您也许可以通过其他方式对血液值成分进行建模:尝试进行主成分分析,如果大多数变化似乎出现在第一个成分上,则将整个观察系列替换为 PC 分数。然后像以前一样进行逻辑回归。

如果您对每位患者都有相同数量的“重复观察”,则可以尝试判别分析。这与上面提到的 PCA 类似,只是选择的组件是为了最好地区分最后一天的两个二分结果。

无论您做什么,您都可以从数据集的一部分估计您的模型,并在另一部分进行测试——看看您实际预测结果的能力如何。

我认为使用广义估计方程 (GEE) 的混合效应模型或边际模型可能对您有用。使用 GEE,您可以指定一个工作相关矩阵,将系列后面的这些观察结果指定为彼此之间具有更高的相关性,并且您可以在模型中添加一个变量作为时间分量。你当然可以用 lmer 和混合效果做类似的事情(减去工作相关矩阵位)。混合效应方法的另一个好处是它不使用像 GEE 这样的总体平均方法。

更进一步,您甚至可以使用经典的统计建模技术和机器学习技术(如增强回归树)构建多个预测模型,然后使用机器学习集成方法将它们组合成一个更强大的预测器。例如,使用 Stacking,您可以构建多个模型,然后将所有模型组合成一个最终预测模型。这些模型通常也优于贝叶斯模型平均方法。