机器算法验证 - 将高维数据添加到多变量 Cox 模型 - 吾爱随笔录

我有一个生存癌症临床试验数据集，从中我使用 R 中的前向似然比测试生成了 Cox 模型。这些模型基于“传统”癌症变量（例如年龄、组织学、转移等）。

我想使用高维数据扩展模型（我们已经测量了数千个基因 - FWIW，这是 DNA 甲基化数据，范围可以从零到一，而不是基因表达）。已经提出了几种使用高维数据调查生存的方法，但我不知道有任何方法符合我的要求，即将高维数据添加到使用先前确定的生存相关性构建的基础多变量模型中。

作为第一步，我正在测试双模态并通过选择最多的双模态探针进行进一步分析来降低维度。这些探针最适合在实验室进行测试和验证。

一种方法是继续进行前向 LR 测试，尽管这会让我很容易过度拟合。

另一种（在我看来更明智）的方法是将基因集合聚合成（与生存相关的）元基因，然后将元基因修剪成少数可测试的基因，这样这可能是临床上可用的测试，尽管这也可能容易过拟合。

我研究的癌症很少见，测试/培训队列也很棘手。从长远来看，临床试验数据集有 135 个病例，另外还有 55 个年龄匹配的非临床试验病例，这与临床试验数据集的生存率没有差异。

所以我的问题是，我应该考虑什么样的方法，到目前为止我所做的是否明智？

非常感谢来自这个相当漫无边际的问题的任何建议。

谢谢阅读！

埃德