我注意到我参与的很多医学研究如下:
收集 300-1000 名患者的数据,包括各种基线特征,例如 BMI、年龄、性别以及结果相关的统计数据,所以说我们的结果是“术后骨折”,我们可以有骨折角度、骨折密度、疼痛评分,活动度评分,生活质量评分等等等,最后是我们的结果,患者是否在手术后发生骨折。通常这些结果是二元的,目标是查看是否有任何自变量与骨折有关。
现在的问题是我们有一个二元结果变量,我们通常会在 1000 名患者中得到大约 30-50 名患者实际上发生了骨折,因此统计数据非常有偏差,并且比 500 名患者有骨折的情况要少得多骨折。
第二个问题是我们可能有 50 个不同类型、因素、连续、二元的自变量(我是否正确假设在这些情况下 p>N,因为结果变量仅包含 30 名患者,即使研究规模为 N是1000?)
第三个问题是这些研究通常是在对该主题知之甚少的情况下进行的,因此通常很难根据专家意见手动选择混杂因素。
显然,由于模型过拟合,我们无法对所有变量进行大型多元回归。我们不能运行 50 个(自变量)多元回归分析来控制年龄和性别,因为我们很快就会遇到一个非常严峻的多重比较问题。
我们不能使用正则化模型,因为我们对所有 50 个变量以及它们是否与我们的结果相关联感兴趣(没有一个被认为是简单的控制,从哪些正则化模型中选择但不一定添加到模型中)。
从统计学的角度来看,你会如何处理这样的研究设计?目前,我只是运行控制患者特征的逻辑回归模型,并且对 p 值未经调整的事实是透明的。
我应该指出,这些研究并不是要发明一种新的治疗方法或改变方案,它们是用来查看哪些变量对未来的研究感兴趣。