我有一个包含 GPS 坐标(纬度和经度)、时间戳变量和主题 ID 的数据集,用于识别不同的人。我想探索的是两件事:
- 查找在受试者之间共享的频繁路线(或路线段),例如人们从他们家所在的不同地方出发并沿着主要高速公路上班。
- 查找相关主题。与上一个相关,它们是相似的主题(例如,考虑到他们用于通勤的时间)
我查看了此处所示的动态时间扭曲,但它没有考虑到例如,主题可以来自不同的点(但共享一个片段)。
尝试实现 K-Means,但我不确定我的质心是如何定义的(如果我应该考虑时间),如这里讨论的那样,不确定在这种情况下相似距离是否做出了正确的假设。
我查看了有关该母题的一些论文,但它们通常使用预定义的点 A 和 B 并尝试进行聚类,但它们暗示了一些转换数据的好策略。
我知道我错过了我正在寻找的概念的名称,也许你可以指导我对算法/论文进行审查。
提前致谢。