分类自变量和连续因变量的回归

机器算法验证 回归 分类数据
2022-02-02 23:05:50

我刚刚意识到我一直在研究自变量总是数值的回归问题。在所有自变量都是分类的情况下,我可以使用线性回归吗?

1个回答

只是一些语义并且要清楚:

  • 因变量 == 结果 == 回归公式中的“ ”,例如 y = β_0 + β_1x_1 + β_2x_2 + ... + β_kx_kyy=β0+β1x1+β2x2+...+βkxk
  • 自变量 == 预测变量 == 回归公式中的“ xk ”之一,例如y=β0+β1x1+β2x2+...+βkxk

所以在大多数情况下,回归的类型取决于依赖、结果或“ y ”变量的类型。例如,当因变量是连续的时使用线性回归,当因变量是具有 2 个类别的分类时使用逻辑回归,当因变量是具有超过 2 个类别的分类时使用多项回归。预测变量可以是任何东西(名义或有序分类,或连续,或混合)

(下面的评论对你来说可能是多余的,但我还是添加了它)

但是,请注意,大多数软件都要求您将分类预测变量重新编码为二进制数字系统这只是意味着将性别编码为女性为 0,男性为 1,反之亦然。对于超过 2 个级别的分类变量,您需要将它们重新编码为L1虚拟变量,其中L是级别数,当这些虚拟变量属于相应类别时,它们包含 0 或 1。这样,每个人(样本)应该用 1 表示他/她所属的虚拟变量,其他人用 0 表示,或者当他/她是参考组的一部分时,所有虚拟变量都用 0 表示。