我应该使用什么模型来根据其他维度为特定用户组找到共同模式?

数据挖掘 机器学习 r 数据挖掘 大数据 预测建模
2022-02-14 08:09:35

我有一个包含 25k 用户的大型 .CSV 数据库,其中包含过去 6 周最后一个用户的活动和事件的各种属性

这是一个数据示例:

username        (B)      (C)             (D)        (E)  
nicole          524      329             203        787
asteria         197      186             286        120 

我想根据每个用户的属性值创建一个共同的行为模式,并运行一个算法来找到一个定义该组行为的共同模式,并找出维度值中是否存在任何相关性以及哪个维度定义了这个用户列表。我完全意识到相关性并不一定等于因果关系。

现在我看到了摆在我面前的几个挑战,非常感谢其他人的一些意见,或者一些很好的资源来寻找更多信息。

这个问题的模型是什么?哪种算法最适合处理这种情况?您推荐使用哪些工具来使用该项目?

任何想法都会很棒。

1个回答

最常见的方法是根据变量的单变量和多变量分析手工创建业务规则。

基本上,做一些频率计数,看看您是否可以仅查看一个或两个变量来隔离一些数据子集。

然后当你有你的标签时,用这个新变量作为输出创建一个线性左右的模型。例如,线性判别分析该分析将为您提供有关您小组的新见解。

如果要依赖算法,有两种解决方案:

由于您似乎没有很多变量,因此无监督分割可以完成这项工作。例如,k-Nearest Neighbor 或决策树是基本且良好的方法。

有了更多变量,我喜欢做一个主成分分析,然后是一个非监督分类,以根据 PCA 的结果定义你的组。请注意,基于您的 PCA 结果分析的 PCA + 手工规则可能就足够了。

最后,每次都会进行判别分析和您的组的配置文件,以评估您的结果质量。