具有许多二元自变量的模型的逻辑回归假设

机器算法验证 回归 物流 广义线性模型 相互作用 假设
2022-04-11 13:30:40

我正在开发一个仅使用定性变量的逻辑回归模型()。我的职责是定义一个等式,该等式可以识别出对 X 公司有利的调查对象的最相关特征。建议的等式类似于以下内容: n=990

Fav=aage+bCoAware+cIssueAware+dreadnewspaper+eregion+fincome
因变量是“公司好感度”(0 = 不受欢迎/两者都不| 1 = 好)。目前有 25 个自变量,其中 20 个是二元 IV,范围从与 DV(对公司的认识)高度相关到不显着(性别)。我还有 5 个分类变量,表示国家的地区、年龄(按类别)、党派、收入水平和教育。

我几乎可以肯定我需要为这种方法使用逻辑回归模型。然而,当我测试我的假设时,我很难证明二分自变量与 DV 的 logit 变换之间的线性关系。

我的另一个问题是,我对可能的交互影响有些不知所措。使用 25 个变量有 34 种可能的选项 - 使我有超过 5000 万种可能的组合。

我有三个问题:

  1. 有没有更好的方法来用二元因变量建模?
  2. 我在假设中遗漏了什么吗?(即:如果我的所有变量都是二分法,我是否确实需要证明线性关系)
  3. 最好通过首先查看多重共线性来解决这个问题,以减少整体变量的数量,然后查看与 DV 的 logit 的线性关系?
2个回答

如果你所有的回归变量都是二元的,那么线性假设是空洞的!所以可以忽略。但是你说你有像年龄这样的变量,它不是二进制的。然后您可以考虑使用年龄样条而不是直接使用年龄,这会导致 GAM(广义加性模型)或使用回归样条。当有一个或几个这样的变量时,我发现这很有用。

然后考虑您认为合理的交互,然后从您的模型开始。

以下是一些想法:

  1. 如果您只想识别相关变量(例如,您不想测试预先存在的假设,并且您不想构建用于以后预测好感度的最佳模型),您可以尝试 CART 或组合逻辑回归带有LASSO惩罚。
  2. 逻辑回归中没有“线性”假设。通常,人们认为 LR 是一个非线性模型。在某种意义上,任何模型都假定它被正确指定,并且有可能(使用连续变量)您可能需要一个平方项(例如)才能使模型得到合理的指定,但即使这样也不是真的只有二​​分变量。
  3. 通常最好先尝试减少自变量。但是,您仍然不必担心“线性”。