我是数据科学的初学者。我有一组具有以下可用属性的驱动程序数据集-
- 时间戳
- 速度
- 加速
- GPS坐标
我需要建立一个驾驶员评分系统,以根据超速参数对驾驶员进行 1-100 分的评分。该数据集包含来自许多司机的数据以及他们过去的数据。在这种情况下,我可以使用哪种最佳算法?
我是数据科学的初学者。我有一组具有以下可用属性的驱动程序数据集-
我需要建立一个驾驶员评分系统,以根据超速参数对驾驶员进行 1-100 分的评分。该数据集包含来自许多司机的数据以及他们过去的数据。在这种情况下,我可以使用哪种最佳算法?
您需要定义超速的含义以及如何对驾驶员进行评分。正如您所注意到的,您的数据集中有速度,这应该是微不足道的。不确定您想在哪个阶段涉及机器学习?好像你什么都不需要。机器学习与了解汽车及其驾驶员不同。
您似乎正在尝试在没有标记数据的情况下进行监督学习。
你对机器学习有一个大致的了解吗?
通常,ML 问题分为 2 类:
监督学习:如果你有数据样本和每个样本的标签,那么目标是预测新样本的标签是什么。
无监督学习:您只有数据样本而没有标签,您想找到某种方法对数据进行分组或在其中找到一些模式。
您应该在那里查看scikit-learn 教程,您可以学习有关 ML 的基础知识,并且可能了解您的项目需要什么。
如果要回归评级,则需要示例。我会让具有领域知识的人(例如产品所有者)查看您的数据子集,让他们对这些数据点进行评分,并使用该子集来训练模型关于您的特征以及可能添加的一些人工特征。然后,您可以使用此模型对其他驱动程序进行评分。