在逻辑回归和 Mann Whitney/t 检验之间进行选择

机器算法验证 物流 t检验 wilcoxon-mann-whitney 检验
2022-03-10 08:43:30

我有一个二分变量A,它没有先验确定的 0 和 1 的比例,以及一个连续变量b.

在场景 1 中,我决定指定A作为变量X, 和b作为 变量y. 然后我测试X反对y使用 Mann Whitney(无分布)、t 检验(正态分布)等检验。

在场景 2 中,我决定指定A作为变量Y, 和b作为 变量x. 然后我测试x反对Y使用逻辑回归。

  1. 不知道两者关系的方向性时应该选择哪种模型Ab,即我无法决定是否A是自变量或b是自变量?

  2. 如果我不确定哪些是因变量或自变量,我是否首先使用 t-test/Mann-Whitney 作为一种单变量分析,然后使用逻辑回归作为多变量分析?

4个回答

问题 1的答案将取决于您的研究问题以及结果的受众。

如果您的研究问题指向基于 A 的概况讨论 b 的差异,那么这显然有助于构建您的摘要。在流行病学研究中,即使您不是基于 A(作为暴露/未暴​​露状态的自变量)进行抽样,使用此分类作为自变量 [暴露] 并将连续变量作为因变量 [结果]。听起来你已经知道这个问题的答案了。

您还应该考虑如何通过向他人展示结果(并自己解释)来解释结果。连续变量作为因变量 [结果] 模型将具有平均差(或相似)作为一个总结;作为结果的二分变量模型将具有优势比(每一个连续变量单位增加的优势的比率,可以缩放以给出例如每增加 5 公斤体重相对增加的 II 型糖尿病的可能性。)

我从咨询设置并向人们解释这一点的经验是,前者(均值差异)通常比后者(连续自变量每单位差异的优势比)更容易向其他人解释。

对于您的问题 2,如果您想运行一个多变量模型,在其中控制协变量,那么在开始时选择因/自变量将有所帮助。从单变量分析到多变量分析,最好坚持使用相同的方法,而不是在两种方法之间进行转换,只是为了便于解释。

关于后一点的最后说明:从假设检验的角度来看,具有连续自变量 [暴露] 和 [单个] 二分因变量的逻辑回归应该返回与未配对 t 检验相同的 p 值,假设变量的方差不相等颠倒了(从记忆中 - 我不完全确定这是否总是正确的。)

Wilcoxon-Mann-Whitney 检验是比例优势序数逻辑模型的一个特例,因此您可以说没有必要改变模型来使用逻辑回归。但是选择模型的基本问题是确定哪些变量是有意义的调整。

这是部分答案的尝试:

我会使用 Mann Whitney 测试,因为它做出的假设更少。逻辑回归对这两个变量之间的关系采用紧密的形式(即 logit)。此外,逻辑回归假设Y伯努利是给定的X:如果不是这种情况(例如,先验样本数Y=1Y=0 就像在病例对照研究中一样),我不确定结果(例如 p 值)是否仍然成立。但是,我已经看到很多人这样做了。

另一方面,Mann Whitney 对此似乎没有问题,即无论它是否为病例对照研究,它都成立。

与许多问题一样,答案取决于您进行分析的根本目的。如果您不仅对显示二分变量 A 和连续变量 b 之间存在显着关联感兴趣,而且对能够计算变量 A 中记录的事件的预期可能性感兴趣,那么您想使用逻辑回归,因为这种方法为您提供了回归方程。此外,A 和 b 的双变量情况下的逻辑回归可以扩展到从 b 和许多其他自变量预测 A 的多变量情况,以控制协变量、检验中介模型、检查交互作用以及所有我们可以用多元回归做其他好事。话说回来,您可能应该考虑将二分变量 A 与连续变量 B 相关联的链接函数。逻辑回归使用 logit 链接,当结果的概率非常高或低时更合适,而概率链接可能更合适事件的概率更接近 0.5 选择适合您的数据的链接函数对于构建良好的回归模型很重要。可以在以下链接中找到有关链接功能的更多信息:5 选择适合您的数据的链接函数对于构建良好的回归模型很重要。可以在以下链接中找到有关链接功能的更多信息:5 选择适合您的数据的链接函数对于构建良好的回归模型很重要。可以在以下链接中找到有关链接功能的更多信息:

http://www.stat.ufl.edu/CourseINFO/STA6167/logistregSFLM.pdf

http://www.norusis.com/pdf/ASPC_v13.pdf