“独立”变量:花费的时间(工作百分比、睡眠百分比、锻炼百分比)、体重组成(脂肪百分比、肌肉百分比、骨骼百分比)
因变量:吸烟者 (1) 或非吸烟者 (0)
当“独立”变量的子集是百分比并且因此不完全相互独立时,我应该使用哪种回归模型?
“独立”变量:花费的时间(工作百分比、睡眠百分比、锻炼百分比)、体重组成(脂肪百分比、肌肉百分比、骨骼百分比)
因变量:吸烟者 (1) 或非吸烟者 (0)
当“独立”变量的子集是百分比并且因此不完全相互独立时,我应该使用哪种回归模型?
您的响应是二元的,因此您可能希望为此查看二项式 GLM 之类的东西,例如逻辑回归。
由于多重共线性问题,有一组个预测变量加到 1(例如身体比例预测变量)意味着您最多可以在模型中拥有
但是,我建议您可能还想转换这些百分比;他们不太可能线性地进入模型;实际上,使用 logit 链接,我的第一个想法是您可能想尝试类似 logit of the ratios 的方法。
我也会进行逻辑回归,因为您没有提到您有一个时间变量来指定从纳入研究到开始吸烟或审查(研究结束)的时间;在这种情况下,Cox 回归会更好。
我怀疑与其他连续变量相比,使用百分比作为预测变量有什么不同。例如,BMI(体重指数)既不是直接测量的预测因子,因为它是从两个单位的除法中得出的。
正如 Glen_b 所提到的,这些预测变量可能并不真正与因变量线性相关。但是转换它们可能会使预测变量更难解释,如果它们是主要感兴趣的预测变量,期刊通常不喜欢转换变量。