驾驶评分方法(行为)

数据挖掘 机器学习 无监督学习 监督学习
2022-03-11 21:24:26

我是移动数据公司的实习生和统计学硕士候选人。我正在研究基于驾驶员驾驶习惯的驾驶分数。我们有包含距离、快速加速(秒)、快速停止、转向角度等的行程数据。我已经阅读了一些相关的文章和论文,但其中一些包含我无法处理的技能,例如基因编程。

我想知道哪些 ML 技能可以用于这个无监督学习问题(也许?)。下面是我们数据集的一个例子。

Driver ID | Trip time | Distance | Harsh acceleration | Quick Stop | ...

1              60 mins     1 mile       180 seconds         7 times  ...

2             30 mins      0.3 mile    10 seconds           2 times ...

我的目标是根据每个驾驶员的数据集得出驾驶分数。规模无关紧要。它可以是 0-100 等级或分类器,例如差、差、正常、好、完美。我正在努力解决的问题是我必须创建目标值(驾驶分数)。我想无监督学习可能是一个提示,但我不太确定。我欢迎任何形式的建议或来源!非常感谢你。

1个回答

由于您没有标记数据,因此您必须使用大量领域知识。此外,预测一个类别(差、差、正常、好、完美)可能比预测分数(0-100)更容易。您可以使用的方法是:

  1. 在您的数据集上应用聚类。
  2. 尝试使用Elbow Method为您的数据集找到最佳聚类数。假设您获得 3 个最佳集群。
  3. 现在是应用领域知识的部分。尝试通过从集群中挑选单个示例来分析集群,并使用领域知识确定您可以将它们分类到哪个类别(这里是好、坏、平均)。
  4. 在分析了集群中的一些示例之后,您可以将获得的标签分配给整个集群,因为集群中的示例是相似的。

上述方法做了一些假设,但对您的数据集来说可能是一个有趣的实验。