您好,我是机器学习/深度学习领域的新手,我发现很难为我的研究选择合适的模型。
我正在尝试构建一个模型,用于根据出发站和目的地站的行程时间和换乘时间对用户使用的地铁路线进行分类。
这是我的数据集的描述。
BSEC BSTN ASTN1 BSTN2 ASTN2 BSTN3 ASTN3 BSTN4 ASTN4 BSTN5 ASTN TFtime Ttime
69551 1001 1703 1703 0 0 0 0 0 0 1003 399 2933
69664 1001 1703 1703 0 0 0 0 0 0 1006 399 2284
66606 1001 1703 1703 0 0 0 0 0 0 1701 118 1750
66600 1001 1703 1703 0 0 0 0 0 0 1701 118 1750
66601 1001 1703 1703 0 0 0 0 0 0 1701 118 1750
69434 1001 0 0 0 0 0 0 0 0 1703 0 1005
ASTN1,BSTN2,ASTN2...BSTN5 指经停站 BSTN ASTN 指登机和到达站。
我有另一个标记的路线信息数据集。
问题从这里开始。
我正在尝试构建一个模型,该模型可以根据给定的 BSTN、ASTN 和时间信息 BSEC、TFtime、Ttime 对用户使用的路由进行分类。路线标签过多,因为每对起点站和终点站的路线都不同。
以下是每个起点站和终点站的路线数
BSTN ASTN trips
<dbl> <dbl> <int>
1 150 152 3
2 150 153 7
3 150 154 2
4 150 156 2
5 150 157 2
6 150 158 4
如前所述,只有 5 个 Origin Destination 对已经有 20 条不同的路线。出发地和目的地共有109,425对,路线数为236,213条。我无法为模型分类的每 236,213 条路线添加标签。
我尝试为每对 Origin Destination 对制作随机森林模型。但我无法调整或解释它们,因为模型类型太多。
什么是适合我情况的合适模型? 有没有一种方法可以让模型解释给定的 OD 对,然后在 Origin Destinatnion 对组件中执行分类?
我真的很感激一些建议或帮助。