查找使用百分比以对新用户执行预测分析

数据挖掘 机器学习 深度学习 算法 预言
2022-03-06 18:55:23

问题陈述 -我必须找到所有用户的平均功能使用情况和用户 X 的使用情况,以建议他是否应该使用该功能。

示例 - 在谷歌主页上,用户平均 85% 的时间使用搜索按钮。如果用户 X 来到主页并根据他的活动,我们计算出只有 35% 的时间他点击了搜索按钮。我们想通知他搜索按钮的好处。

数据我们有——

User | Landed on home page | used search button
 1        1000                  100
 2        100                   10
 3        1                     1
 4        10                    10
 5        10000                 1

问题-

  1. 如何消除用户 5,因为这会使数据异常倾斜。中位数可能是该用例的解决方案。有没有更好的建议?

  2. 如何找到平均使用量,我的意思是 1/1(用户 3)和 10/10(用户 4)不一样,即 10/10(用户 4)应该比 1/1(用户 3)有更多的价值

  3. 如果这些用户(USER 1-5)在 1 个月后停止访问主页,那么平均使用量仍然相同——这是错误的。由于它是较早使用但不是最近使用,因此使用平均值应该会衰减。

因此,除了上述问题之外,我的问题是,我是否朝着正确的方向前进?是否有任何内置算法或工具可用于问题陈述?任何新方法都是最受欢迎的。

1个回答

创建一个新列,其中包含每个用户使用搜索栏的百分比(我称之为chance

  1. 您可以消除新列的“n”个标准偏差之外的所有用户消除高值和低值,或者您可以手动设置阈值
  2. 计算每个登陆主页的对数(landedi) 以基数作为最大登陆主页值 (landedmax)loglandedmax(landedi)=weight,然后将每个乘以weight它的chance创建chanceWeighted这种加权机会确保更频繁的用户拥有更多的权重。您现在可以从这些数据中找到您希望的任何平均值
  3. 如果您想根据上次访问来衰减用户,您需要记录用户上次访问的日期,并且他们对他们执行另一个类似于加权平均的功能