我正在使用 Azure ML Studio 并尝试创建一个回归模型来预测数值。我将尝试描述我的特点以及到目前为止我所做的事情。
我的数据大约有 300 万行:
特征:
- 从 1 到 25 的 8 个整数特征
- 2 个带有 0 和 1 的布尔特征
- 从 1 到 10 的 3 个整数特征
- 2 个整数特征,从 0 到 500.000(分别为 1.000.000),具有大约 4.500 个唯一值
- 从 20 到 50 的 1 个整数特征
- 从 1 到 15 的 1 个整数特征
- 1 个从 0 到 100 的整数特征
标签:
- 从 10.000 到 100.000.000 的整数,具有大约 5.000 个唯一值
我做了什么:
- 将数据集拆分为 80%(训练)和 20%(测试)。然后我再次将训练数据集拆分为 60%(实际训练)和 40%(验证)。
- 标准化具有许多唯一值的特征(上面列表中的第 4 个项目符号)
- 训练提升决策树回归模型。
- 使用扫描参数模块找到最佳组合
我也尝试过神经网络、贝叶斯线性回归,但 BDTR 给出了最好的分数。
我尝试排除列并仅从几个列开始(基于我认为它会影响模型的内容),然后一一添加更多列。
然而,我能达到的最低 MSE 是 1.500.000(加上我有很多负分值)
所以,我在想我可以使用哪些其他技术来改进模型。