在两个非重叠人群(患者和健康,总数)的数据集中,我想(在自变量中)找到连续因变量的重要预测因子。存在预测变量之间的相关性。我有兴趣找出是否有任何预测变量与“现实中”的因变量相关(而不是尽可能准确地预测因变量)。当我对众多可能的方法感到不知所措时,我想问一下最推荐哪种方法。
据我了解,不建议逐步包含或排除预测变量
例如,为每个预测变量分别运行线性回归,并使用 FDR 进行多重比较校正 p 值(可能非常保守?)
主成分回归:难以解释,因为我无法说出单个预测变量的预测能力,而只能说出成分。
还有其他建议吗?