我需要分析一个关于手机使用情况的数据集(#calls、#sms、#internetConnections),每个单元格和每个小时在不同的日子里。
[date] [CDR/Position] [#calls] [#sms] [#internetConnections]
我的目的是检测数据中的相似性(周一至周二相似......或周一晚上不同......)。在此之后,我想找出它们相似/不同的原因。
我可以申请什么?
我需要分析一个关于手机使用情况的数据集(#calls、#sms、#internetConnections),每个单元格和每个小时在不同的日子里。
[date] [CDR/Position] [#calls] [#sms] [#internetConnections]
我的目的是检测数据中的相似性(周一至周二相似......或周一晚上不同......)。在此之后,我想找出它们相似/不同的原因。
我可以申请什么?
有两种直接(普通)的方式,无需进行任何花哨的特征化:
聚类:
运行聚类算法。像 k-means 这样的东西应该可以很好地处理这种数据集。这样做时,我不会将 day_of_week 信息输入聚类算法。
我建议运行 k-means(在对每一列进行标准化之后)。选择少量易于调查的集群(或者您可以使用使 BIC 最大化的集群数量)。
调查集群以了解每个集群中的 day_of_week 成员资格。
多类分类:
将 day_of_week 视为您想要预测的响应。构建一个固定深度的决策树来预测给定列的 day_of_week。通过检查这棵树,您可以很容易地分辨出哪些决策导致一组叶子被标记为星期日,哪些决策导致一组叶子被标记为星期一。这些决定还将帮助您了解不同日子之间的相似之处。