我想对一个数据集进行一些聚类,我正在查看 10,000 人对某些电子设备的使用情况。我有 11 列;第一列只是一个代表研究中每个人的 URN。然后其他十列用于每个设备(例如电话、笔记本电脑、电视等)的每周使用量,以分钟为单位。
没有人实际上拥有所有十个设备。他们通常倾向于有2-4个。出于这个原因,对于他们使用的每个设备,他们将具有 n 值,如果他们没有所述设备,则为“0”。因此,我显然不能省略其中包含 0 的行,而 0 并不一定意味着缺少数据,而不是实际上意味着他们不拥有设备。
我想知道在这种情况下如何进行典型的基本聚类分析?/ 进行此类研究的合适方法是什么?(我用R做分析,供参考)
谢谢您的帮助。