数据挖掘 - 如何使用单个变量对时间序列进行聚类 - 吾爱随笔录

让我先说我是 R 和数据科学的初学者，所以如果这是一个相当微不足道的问题，我深表歉意。不过，我确实对我想要实现的目标以及最终结果的外观有一个粗略的了解。我只是不知道哪种算法最适合处理这种数据以及如何实现它。

我想在一个具有 13369 个不同单元的数据帧上运行一个聚类算法，每个单元只有一个跟踪 15 年的变量。所以我的数据看起来像这样：

id  y1  y2  y3  y4  y5  y6  y7  y8  y9  y10 y11 y12 y13 y14 y15

01  0   6   0   3   0   0   0   0   0   0   0   1   1   0   0
02  1   4   1   6   4   3   7   6   3   8   11  10  9   10  10
03  0   0   2   0   5   0   1   0   3   0   0   0   0   0   0
...
...
...
13369 4  9  0   12  5   1   1   0   6   1   2   7   0   0   3

为了为这项任务建立一些背景，这是作者的数据以及他们每年发表的出版物数量，跨越 15 年。

我想最终得到一个树状图，描绘作者所属的各种集群，（我猜）取决于他们在特定时间段内的多产程度（例如，开始与晚年）。

我希望我清楚地解释了一切。感谢您抽出宝贵时间帮助有需要的学生。