字符串值的多元线性回归

数据挖掘 机器学习 Python scikit-学习 线性回归 一热编码
2022-02-17 16:59:34

我正在使用主要涉及字符串值的数据集。该项目的主要成果是它应该预测成功。现在我可以使用 OneHotEncoding 将字符串值转换为数字格式,但值很多。我正在使用多元线性回归,唯一的数值是我的模型应该预测的输出。

  1. 问题1:使用sklearn,在对字符串值进行编码时,由于值很多,不应该占用整个资源吗?

  2. 查询 2:如果独立值是字符串格式而依赖值是数字格式,我的模型会工作吗?就像它是否需要一些数字格式或字符串格式的独立值就可以了?

  3. 查询 3:有没有其他更好的方法来代替 OneHotEncoding ?

说明:我正在尝试使用 IMDb 数据集来预测电影的成功,使用电影的演员、制片人、流派和其他一些变量。使用了几乎 5-6 个独立变量。使用的因变量是电影的评分

1个回答

(分数不够评论)

我不认为线性回归是您情况下的最佳模型,请添加有关您的功能的更多信息,例如这些字符串代表什么?每个特征有多少个唯一值?成功是二进制变量吗?