我们有一个包含 300,000 多条记录的数据集,如下所示:
Item ID, Quantity 2017, Quantity 2016, Quantity 2015, Quantity 2014, Quantity 2013
1111, 100, 50, 25, 10, 0
2222, 0, 10, 100, 500, 1000
3333, 10, 0, 5, 2, 4
我们目前正在尝试根据每条记录的先前数量找到预测 Quantity 2017 的最佳模型。我们已经尝试过决策树回归、多元线性回归和随机森林回归(10、100、1000 棵树),但我们的结果离批准有点太远了。我们将 80% 的数据用于训练,20% 用于测试。
有没有更适合这种计算的模型?
我们还担心,也许我们的数据结构是问题的一部分,我们应该重新评估。还有其他可能更好的结构吗?