为通过网站的旅程构建路径概率树

机器算法验证 r 可能性 数据可视化 马尔科夫过程
2022-03-29 01:01:23

我目前正在对一个网站进行分析,该网站要求我创建一个决策树图,显示人们到达网站时可能采取的路线。我正在处理一个data.frame显示所有客户到该站点的路径,从主页开始。例如,客户可以采用以下路径:

Homepage - pg 1
Kitchen Items page - pg 2
Pots and Pans page - pg 3

所以这个客户会有一个 3 页的旅程。我想在 R 中尝试做的是结合所有客户路径,从而为遵循网站上特定路径的客户分配概率。例如,如果我要检查所有路径,我会发现 34% 的到达主页的人会进入“厨房用品页面”。R有这个设施吗?

我通过rpartpartykit包查找了不同的方法,但它们似乎没有任何帮助。

非常感谢任何朝着正确方向前进的方向!

3个回答

不是一种开始的方法,是有一个矩阵(比如),其中是页数。然后,每当您有用户从页面跳转到页面时,根据您的原始数据将矩阵元素递增一。这为您提供了转换概率。n×nMn×nnMrcrc

您的第一个问题已经得到了回答:“主页(例如第 1 页)上的用户百分比是在厨房用品(例如第 2 页)旁边旅行的吗?”

M12cM1c

还是这太简单了?

看起来您正在尝试重新创建 Google 的 PageRank 算法。大多数 PageRank 算法都是使用马尔可夫链开发的。您可以找到很多关于在 R 中开发 PageRank 方法的内容。

igraph.sourceforge.net/doc/R/page.rank.htm

从我在这里看到的情况来看,我同意 igraphs / Markov Chains 可能是要走的路,但是您绝对可以使用 rpart 和/或partykit。

我很难用你有限的例子给出一个简单的答案,但我可以大致解释一下你会怎么做。

您想查看所有用户的位置,并将其总结为一个字符串,例如

"Home / product4 / product3 / product4 / buynow"
"Home / product3 / buynow"
"Home / product3 / product4"

然后,您可以将您的用户分成几类,比如最终进入“立即购买”页面的用户和没有进入的用户。然后,您可以简单地开始预测该最终结果。在这个例子中,也许你会发现做最多比较商店的人买了/没买东西。

您还可以创建更多变量,例如“buynow 页面之前的页面是什么”“他们在购买东西之前访问了多少页面”或“他们何时创建了第一个帐户”,并且您可以将这些指标添加到您的分析中。

您可以采用许多不同的方式,这开始回答不同的问题,但我的观点是您可以使用树,对于某些问题,它可能是更快、更简单的洞察途径。

顺便说一句,如果您要使用派对,则需要使用factoror来制作非数字变量因子。as.factor派对有一些很好的小插曲让你开始。