我有一个表格,其中有四组(4 个 BMI 组)作为自变量(因子)。我有一个因变量是“母亲在怀孕期间吸烟的百分比”。
是否允许为此使用方差分析,或者我必须使用卡方或其他一些测试?
我有一个表格,其中有四组(4 个 BMI 组)作为自变量(因子)。我有一个因变量是“母亲在怀孕期间吸烟的百分比”。
是否允许为此使用方差分析,或者我必须使用卡方或其他一些测试?
将二元变量作为因变量与将比例作为因变量是有区别的。
二元因变量:
作为因变量的比例:
这取决于不同组内的响应与 0 或 100% 的接近程度。如果有很多极值(即许多值堆积在 0 或 100% 上),这将很困难。(如果您不知道“分母”,即计算百分比的科目数量,那么您无论如何都不能使用列联表方法。)如果组内的值更合理,那么您可以转换响应变量(例如经典的反正弦平方根或可能是 logit 变换)。有多种图形(首选)和零假设检验(不太首选)方法可用于确定转换后的数据是否充分满足 ANOVA 的假设(方差和正态性的同质性,前者比后者更重要)。图形测试:箱线图(方差齐性)和 QQ 图(正态性)[后者应在组内或残差上完成]。零假设检验:例如 Bartlett 或 Fligner 检验(方差齐性)、Shapiro-Wilk、Jarque-Bera 等。
您需要拥有原始数据,以便响应变量为 0/1(不是烟雾,烟雾)。然后你可以使用二元逻辑回归。将 BMI 分组为区间是不正确的。分界点不正确,可能不存在,而且您没有正式测试 BMI 是否与吸烟有关。您目前正在测试丢弃大部分信息的 BMI 是否与吸烟有关。您会发现尤其是外部 BMI 区间非常不均匀。
如果您选择对比例数据进行普通方差分析,那么验证同质误差方差的假设至关重要。如果(与百分比数据一样),误差方差不是恒定的,更现实的替代方法是尝试 beta 回归,这可以解释模型中的这种异方差性。这是一篇讨论处理百分比或比例响应变量的各种替代方法的论文: http ://www.ime.usp.br/~sferrari/beta.pdf
如果你使用 R,包betareg可能有用。