我正在开发一个仅使用定性变量的逻辑回归模型()。我的职责是定义一个等式,该等式可以识别出对 X 公司有利的调查对象的最相关特征。建议的等式类似于以下内容:
因变量是“公司好感度”(0 = 不受欢迎/两者都不| 1 = 好)。目前有 25 个自变量,其中 20 个是二元 IV,范围从与 DV(对公司的认识)高度相关到不显着(性别)。我还有 5 个分类变量,表示国家的地区、年龄(按类别)、党派、收入水平和教育。
我几乎可以肯定我需要为这种方法使用逻辑回归模型。然而,当我测试我的假设时,我很难证明二分自变量与 DV 的 logit 变换之间的线性关系。
我的另一个问题是,我对可能的交互影响有些不知所措。使用 25 个变量有 34 种可能的选项 - 使我有超过 5000 万种可能的组合。
我有三个问题:
- 有没有更好的方法来用二元因变量建模?
- 我在假设中遗漏了什么吗?(即:如果我的所有变量都是二分法,我是否确实需要证明线性关系)
- 最好通过首先查看多重共线性来解决这个问题,以减少整体变量的数量,然后查看与 DV 的 logit 的线性关系?