为使用聚类准备数据

数据挖掘 机器学习 数据挖掘 聚类 算法 数据清理
2022-03-10 14:57:14

数据集:我得到了单个客户每天使用产品的分钟数,并试图对这些数据进行聚类以找到常见的使用模式。

我的问题:我如何格式化数据,例如,一个使用了一年的高级用户看起来与另一个在我结束数据之前只能使用该设备一个月的高级用户相同收藏?

到目前为止,我已经将每个客户变成了一个数组,其中每个单元格是当天使用的分钟数。该数组从用户第一次使用产品时开始,到用户第一年使用后结束。对于聚类模型,单元格中的所有条目必须是双精度值(例如使用 200.0 分钟)。我考虑过将数据收集最后一天之后的所有单元格/天数设置为 -1.0 或 NULL。这些都是有效的方法吗?如果不是,你会建议什么?

1个回答

我相信您的问题归结为对不同长度的时间序列进行聚类。根据您的问题,您希望将高级用户的较长时间序列视为与类似模式的时间序列相似,但要短得多。
因此,您应该研究允许这些属性的聚类技术和距离度量。我不知道您选择的语言,但这里有一些R您可能会感兴趣的软件包:
- Fréchet distance - 提供此功能的软件包之一是kmlShape
-基础中包含的动态时间规整R
-排列分布聚类- 包pdc
这也将解决您将值设置为-1NULL不再需要的数据格式问题。hth。