我正在使用主要涉及字符串值的数据集。该项目的主要成果是它应该预测成功。现在我可以使用 OneHotEncoding 将字符串值转换为数字格式,但值很多。我正在使用多元线性回归,唯一的数值是我的模型应该预测的输出。
问题1:使用sklearn,在对字符串值进行编码时,由于值很多,不应该占用整个资源吗?
查询 2:如果独立值是字符串格式而依赖值是数字格式,我的模型会工作吗?就像它是否需要一些数字格式或字符串格式的独立值就可以了?
查询 3:有没有其他更好的方法来代替 OneHotEncoding ?
说明:我正在尝试使用 IMDb 数据集来预测电影的成功,使用电影的演员、制片人、流派和其他一些变量。使用了几乎 5-6 个独立变量。使用的因变量是电影的评分