我有以下格式的数据集:
电影ID | 演员 | 导演 | 语言 | 发布年份 | 类型
1 | Anil Kapoor;Manisha Koirala;Jackie Shroff;Anupam Kher;Danny Denzongpa;Pran | 维杜维诺德乔普拉 | 欣 | 1994 | 剧情;爱情;爱国
如您所见,Actors 和 Genre 列有多个值。我需要对这个数据集进行聚类分析。我不知道处理此类数据的最佳方法是什么。我正在考虑两种可能的解决方案(不知道这是否是解决此类问题的正确方法)--
- 将列(例如“Actors”)拆分为多个列,例如 Actors 1、Actor2、...,然后执行集群分析。
- 行拆分,即将单行数据转换为多行,每行对应一个列值,如“演员”和“流派”。
请建议我处理此类数据以进行聚类分析的最佳方法。