让我先说我是 R 和数据科学的初学者,所以如果这是一个相当微不足道的问题,我深表歉意。不过,我确实对我想要实现的目标以及最终结果的外观有一个粗略的了解。我只是不知道哪种算法最适合处理这种数据以及如何实现它。
我想在一个具有 13369 个不同单元的数据帧上运行一个聚类算法,每个单元只有一个跟踪 15 年的变量。所以我的数据看起来像这样:
id y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 y13 y14 y15
01 0 6 0 3 0 0 0 0 0 0 0 1 1 0 0
02 1 4 1 6 4 3 7 6 3 8 11 10 9 10 10
03 0 0 2 0 5 0 1 0 3 0 0 0 0 0 0
...
...
...
13369 4 9 0 12 5 1 1 0 6 1 2 7 0 0 3
为了为这项任务建立一些背景,这是作者的数据以及他们每年发表的出版物数量,跨越 15 年。
我想最终得到一个树状图,描绘作者所属的各种集群,(我猜)取决于他们在特定时间段内的多产程度(例如,开始与晚年)。
我希望我清楚地解释了一切。感谢您抽出宝贵时间帮助有需要的学生。