在进行用户细分之前应该如何准备点击流数据?

数据挖掘 数据挖掘 聚类 预处理
2022-02-28 08:32:36

我有兴趣在点击流数据中对用户进行细分/聚类,并正在寻找一些关于如何去做的好建议。

假设我的数据由网站访问者的观察组成。数据采用点击流/博客格式,因此由用户 cookie 数据组成。假设我可以通过他们的 IP 地址识别唯一用户(作为一个基本示例)。我应该如何准备我的数据,以便可以对其进行细分以找到具有相似行为的用户?我对此的一个想法是,因为数据是事件驱动的,同一个用户显然可以在数据中出现多次,即使它可能都与该用户的同一个会话有关。如何解决这些类型的问题,以便您可以根据用户行为进行细分?

感谢您的建议!

1个回答

这听起来像是一项与时间相关的预测任务……即预测。您可用的数据是事件驱动的,例如,当用户点击链接/刷新页面/点击 Google 广告等时记录数据。这意味着您需要将数据视为时间序列对于每个用户。如果您可以访问 ESP(事件流处理),这会更容易,但假设您没有。因此,您需要识别每个用户,汇总他们的信息/功能,以便您拥有识别他们访问的唯一页面数量、他们拥有的会话数等的功能。然后您可以对这些用户进行细分,您可能会也可能不会从中获得有用的部分。您甚至可以更进一步进行会话分析,从而识别独特的会话和集群/分段用户会话,以寻找良好的视觉模式或异常。