我正在解决一个需要进行回归的问题,我混合了大约 40 个数值变量和 40 个非数值(又名分类/因子)变量。是否有针对此类问题的既定算法?我不认为将非数值变量转换为数值变量在这个问题上是一个好主意,因为它们只是“标签”。他们不衡量任何东西。
当混合了数值和非数值预测变量时如何进行回归?
机器算法验证
回归
分类数据
2022-03-25 09:09:36
2个回答
首先,这取决于您的因变量(Y)是什么。如果它是数字的,那么大多数多元回归模型就足够了。如果它 (Y) 是分类的,那么您需要逻辑回归或类似的分类回归模型。
至于如何处理自变量,数值变量几乎可以很好地适应任何回归模型。分类的将需要“分解”。我使用 R。在 R 中,您通过运行在数据框中指定分类变量“k”
Data.Object[DollarSign]k <- 因子(Data.Object[DollarSign]k)
在其他语言/软件中,您会以不同的方式进行操作。但无论您使用哪种软件,请务必确保分类数据被视为此类数据。不,没有神奇的算法或软件可以让你挥动魔杖并为你考虑所有这些因素。这是一个常见问题,如果您认为 40 不好,请考虑 100 的问题。
至于抛出像您这样的数据集时运行的“最佳”回归?...嗯,这取决于您/您的老板正在寻找什么。
对您来说棘手的部分是将标签解释为有意义的东西。假设您有一个变量“您的政党是什么?” 如果 1 是“共和党人”,2 是“民主党人”,3 是“独立”,那么每个人都不会有一个变量。您将有一个用于“民主”和“独立”的变量,两个值均为零表示“非民主且不独立”。在这种情况下,如果个人是民主主义者,“民主主义者”的回归系数将显示 Y 的变化。如果这个人是独立的,“独立”的系数将显示 Y 的变化。
最重要的是,对于所有其他系数,基本情况是共和党人。因此,您对其他变量所做的任何解释都应针对该基本情况进行调整。有一些算法可以让这种调整变得更容易,但我不知道任何在我脑海中的东西。
几乎所有的回归算法都处理数值和分类变量。对于分类变量,可以使用不同的“编码”。
简单的例子是二进制编码。例如,对于性别,您可以使用代表男性和代表女性。如果变量有更多值,可以使用一种热编码。
详情可查
其它你可能感兴趣的问题