查找 GPS 轨迹的频繁段

数据挖掘 数据挖掘 地理空间
2022-02-21 02:39:09

我有一个包含 GPS 坐标(纬度和经度)、时间戳变量和主题 ID 的数据集,用于识别不同的人。我想探索的是两件事:

  1. 查找在受试者之间共享的频繁路线(或路线段),例如人们从他们家所在的不同地方出发并沿着主要高速公路上班。
  2. 查找相关主题。与上一个相关,它们是相似的主题(例如,考虑到他们用于通勤的时间)

我查看了此处所示的动态时间扭曲,但它没有考虑到例如,主题可以来自不同的点(但共享一个片段)。

尝试实现 K-Means,但我不确定我的质心是如何定义的(如果我应该考虑时间),如这里讨论的那样,不确定在这种情况下相似距离是否做出了正确的假设。

我查看了有关该母题的一些论文,但它们通常使用预定义的点 A 和 B 并尝试进行聚类,但它们暗示了一些转换数据的好策略。

我知道我错过了我正在寻找的概念的名称,也许你可以指导我对算法/论文进行审查。

提前致谢。

2个回答

这个问题就解决了。

频繁路线是二维空间中的时间序列主题。有精确的算法可以在海量数据集中找到模体 [a]

[一] https://www.cs.ucr.edu/~eamonn/MatrixProfile.html

在轨迹可以遵循现有路线的初始假设下,所有可能的子轨迹的数量都是有限的并且也可以是谨慎的。我将离散化地图并在所有子路径上进行频率分析:

  1. 创建所有可能路径的地图,以便覆盖所有轨迹,从而为您提供完整地图。
  2. 通过创建路径和路径段来离散化地图,路径段定义为每个路径段是特定路径上两个最近分支之间的路径,您也可以将此任务视为生成图形。
  3. 将每个轨迹表示为该路径段的序列,并计算地图中每个段的频率特性
  4. 您可以使用离散化级别扩展此任务,以便仍然可以将一些短路径视为主要路径...