我刚刚意识到我一直在研究自变量总是数值的回归问题。在所有自变量都是分类的情况下,我可以使用线性回归吗?
分类自变量和连续因变量的回归
机器算法验证
回归
分类数据
2022-02-02 23:05:50
1个回答
只是一些语义并且要清楚:
- 因变量 == 结果 == 回归公式中的“ ”,例如 y = β_0 + β_1x_1 + β_2x_2 + ... + β_kx_k
- 自变量 == 预测变量 == 回归公式中的“ ”之一,例如
所以在大多数情况下,回归的类型取决于依赖、结果或“ ”变量的类型。例如,当因变量是连续的时使用线性回归,当因变量是具有 2 个类别的分类时使用逻辑回归,当因变量是具有超过 2 个类别的分类时使用多项回归。预测变量可以是任何东西(名义或有序分类,或连续,或混合)。
(下面的评论对你来说可能是多余的,但我还是添加了它)
但是,请注意,大多数软件都要求您将分类预测变量重新编码为二进制数字系统。这只是意味着将性别编码为女性为 0,男性为 1,反之亦然。对于超过 2 个级别的分类变量,您需要将它们重新编码为虚拟变量,其中是级别数,当这些虚拟变量属于相应类别时,它们包含 0 或 1。这样,每个人(样本)应该用 1 表示他/她所属的虚拟变量,其他人用 0 表示,或者当他/她是参考组的一部分时,所有虚拟变量都用 0 表示。
其它你可能感兴趣的问题