如何聚类纵向变量?

机器算法验证 聚类
2022-03-28 02:39:24

我有一堆变量,其中包含从第 0 天到第 7 天的纵向数据。我正在寻找一种合适的聚类方法,可以将这些纵向变量(不是案例)聚类到不同的组中。我试图按时间分别分析这个数据集,但结果很难合理解释。

我调查了 SAS 程序的可用性,PROC SIMILARITY因为它的网站上有一个示例但是,我认为这不是正确的方法。之前的一些研究在每个时间点都使用了探索性因素分析,但由于结果不合理,这在我的研究中也不是一个选择。

希望这里可以提供一些想法,并且可以使用已编译的程序(例如 SAS 或 R)来处理。任何建议表示赞赏!


这是一个简短的示例(对于数据和变量名称之间的位置不一致,请见谅):

id time   V1  V2   V3   V4   V5   V6   V7   V8   V9   V10
2    0    8    7    3    7    6    6    0    0    5    2
2    1    3    5    2    6    5    5    1    1    4    2
2    2    2    3    2    4    4    2    0    0    2    2
2    3    6    4    2    5    3    2    1    2    3    3
2    4    5    3    4    4    3    3    4    3    3    3   
2    5    6    4    5    5    6    3    3    2    2    2
2    6    7    5    2    4    4    3    3    4    4    5
2    7    7    7    2    6    4    4    0    0    4    3
4    0   10    7    0    2    2    6    7    7    0    9
4    1    8    7    0    0    0    9    3    3    7    8
4    2    8    7    0    0    0    9    3    3    7    8
4    3    8    7    0    0    0    9    3    3    7    8
4    4    5    7    0    0    0    9    3    3    7    8
4    5    5    7    0    0    0    9    3    3    7    8
4    6    5    7    0    0    0    9    3    3    7    8
4    7    5    7    0    0    0    9    3    3    7    8
5    0    9    6    1    3    2    2    2    3    3    5
5    1    7    3    1    3    1    3    2    2    1    3
5    2    6    4    0    4    2    4    2    1    2    4
5    3    6    3    2    3    2    3    3    1    3    4
5    4    8    6    0    5    3    3    2    2    3    4
5    5    9    6    0    4    3    3    2    3    2    5
5    6    8    6    0    4    3    3    2    3    2    5
5    7    8    6    0    4    3    3    2    3    2    5
3个回答

所以,你有p个变量在相同的n 个个体上每t次测量。一种方法是计算t pXp (dis)similarity 矩阵并应用 INDSCAL 模型多维缩放。它将为您提供两个低维地图(例如,二维)。第一张图显示了维度空间p个变量的坐标,并反映了它们之间的分组(如果有的话)。第二张图显示了t的每个矩阵中维度的权重(即重要性或显着性)

在此处输入图像描述

我不确定这是否是您要查找的内容,但kmlR 中的包使用 k-means 对重复测量序列进行聚类。这是包页面论文的链接(不幸的是,它是封闭的)。只有当你有一个相当小的数据集(几百个序列)时,它才能很好地工作。

这是论文的非门控版本(没有参考问题):http ://christophe.genolini.free.fr/recherche/aTelecharger/genolini2011.pdf

在 RHmisc包中,请参阅curveRep函数的帮助文件,它代表“代表性曲线”。 curveRep对缺失时间点的曲线形状、位置和模式进行聚类。