在因变量和自变量都是二元的情况下进行逻辑回归是否合适?例如,因变量是 0 和 1,预测变量是对比编码变量 -1 和 1?
具有二元因变量和自变量的逻辑回归
机器算法验证
物流
2022-02-14 06:11:57
4个回答
为了清楚起见:术语“二进制”通常仅保留给 1 对 0 编码。适用于任何 2 值编码的更一般的词是“二分法”。逻辑回归当然欢迎二分预测变量,就像线性回归一样,并且由于它们只有 2 个值,因此将它们作为因子输入还是作为协变量输入都没有区别。
没有理由不这样做,但有两个警示性想法:
在分析哪个是哪个的过程中要仔细跟踪。在大型项目中,很容易迷失方向,并产生错误的结果。
如果您选择报告回归估计而不是优势比,请在报告中明确您的编码方案,这样读者就不会自行产生不准确的 OR,假设它们都被编码为 0,1。
可能看起来很基本,但我已经看到这两个问题都成为已发表的论文。
通常,如果您将预测变量编码为 0-1,它有助于解释,但除此之外(并注意它不是必需的),这没有任何问题。还有一些其他(基于列联表的)方法,但如果我没记错的话,这些方法等同于(某种形式的)逻辑回归。
简而言之:我认为没有理由不这样做。
此外,如果您有两个以上的预测变量,那么即使对于逻辑回归或多元回归,也更有可能存在多重共线性问题。但是,对所有二元变量(即编码 (0,1))使用逻辑回归并没有什么坏处。
其它你可能感兴趣的问题