我得到了 6 个数据集,其中 5 个是训练集。5 个数据集对应 5 个驱动程序。
数据集的每一行都由一个时间戳和一条折线组成。折线给出了驾驶员每 15 秒获取的 GPS 坐标(纬度、经度)。所以这条线的长度给出了每次旅行的持续时间。我必须将与每个时间戳对应的折线分类为最后一个(测试)数据集中的这 5 个驱动程序之一。
我在选择分类算法时需要帮助。我之前只实现了朴素贝叶斯(文本分类),但我认为它不会在这里工作。我无法想象解决这个问题的方法。
我得到了 6 个数据集,其中 5 个是训练集。5 个数据集对应 5 个驱动程序。
数据集的每一行都由一个时间戳和一条折线组成。折线给出了驾驶员每 15 秒获取的 GPS 坐标(纬度、经度)。所以这条线的长度给出了每次旅行的持续时间。我必须将与每个时间戳对应的折线分类为最后一个(测试)数据集中的这 5 个驱动程序之一。
我在选择分类算法时需要帮助。我之前只实现了朴素贝叶斯(文本分类),但我认为它不会在这里工作。我无法想象解决这个问题的方法。
我之前做过一些根据驾驶行为对车辆(重型或轻型)进行分类的工作。这需要计算速度和加速度,您可以通过使用五点模板等数字公式轻松完成。您已经知道点之间的间隔为 0.25 秒,并且可以使用半正弦公式计算距离。可以推导出更多特征,例如行驶里程、最大和平均速度、左右转弯次数、急刹车和急加速。尝试在 Google 地球(或类似的地图工具)上绘制折线,看看是否有独特的地理模式(它们彼此相距很远,还是都在同一区域?)。如果模式可见,则聚类算法可能会有所帮助。