数据挖掘 - 字符串值的多元线性回归 - 吾爱随笔录 - 问答

字符串值的多元线性回归

数据挖掘机器学习 Python scikit-学习线性回归一热编码

2022-02-17 16:59:34

我正在使用主要涉及字符串值的数据集。该项目的主要成果是它应该预测成功。现在我可以使用 OneHotEncoding 将字符串值转换为数字格式，但值很多。我正在使用多元线性回归，唯一的数值是我的模型应该预测的输出。

问题1：使用sklearn，在对字符串值进行编码时，由于值很多，不应该占用整个资源吗？
查询 2：如果独立值是字符串格式而依赖值是数字格式，我的模型会工作吗？就像它是否需要一些数字格式或字符串格式的独立值就可以了？
查询 3：有没有其他更好的方法来代替 OneHotEncoding ？

说明：我正在尝试使用 IMDb 数据集来预测电影的成功，使用电影的演员、制片人、流派和其他一些变量。使用了几乎 5-6 个独立变量。使用的因变量是电影的评分

1个回答

（分数不够评论）

我不认为线性回归是您情况下的最佳模型，请添加有关您的功能的更多信息，例如这些字符串代表什么？每个特征有多少个唯一值？成功是二进制变量吗？

其它你可能感兴趣的问题

上一篇如何训练用于命名实体识别的机器学习模型下一篇为/在企业中开发的最常见的机器学习/自然语言处理项目