我有一个包含 4000k 行和 6 列的数据集。目标是预测出租车的出行时间需求。我已经阅读了很多关于如何解决这个问题的文章。所以,每个作家都有自己的方式。我从所有阅读中得出的结论是,我必须使用多种算法并检查每种算法的准确性。然后我可以通过平均或任何其他方法来集成它们。
哪种算法最适合我的问题准确性?一些代码链接对我有帮助。
我目前只有训练数据集。在我完成它之后,它将在我的教授的任何测试集上进行评估。那么,我现在该怎么办?要么将我拥有的数据拆分到我自己的测试和训练集中,要么单独生成虚拟数据作为测试集?