在 RI 有data
哪里head(data)
给出
day count promotion
1 33 20.8
2 23 17.1
3 19 1.6
4 37 20.8
现在day
只是这一天(并且是有序的)。promotion
是当天的促销价值。它只是广告在电视上出现的次数。count
是我们当天获得的新用户数量。
我想调查促销价值对新用户的影响(count
)。由于我们有一个计数过程,我认为最好建立一个泊松回归模型。
model=glm(formula= data$count ~ data$promotion, data=data)
当我们输入时,summary(model)
我们得到
Coefficients:
(Intercept) good_users$promotion
13.40216 0.24342
Degrees of Freedom: 793 Total (i.e. Null); 792 Residual
Null Deviance: 9484
Residual Deviance: 9325 AIC: 12680
这是数据图。
但是当我绘制模型的拟合值时
points(model$promotion, model$fitted, col="blue")
我们得到这个
我应该如何选择我的回归模型(我应该使用 lm 而不是 glm)还是另一种更好的方法来解决这个问题?因为数据不漂亮但更随机,应该怎么办?
更新
寻找甜蜜点
为了找到一个甜蜜点,我做了以下事情。我data
分成10组。group1
只是促销值在 内的子集1:10
。group2
是促销值介于 之间的数据,11:20
其他组以此类推。所以在R中我们有
group1 <- subset(data, data$promotion %in% 1:10)
group2 <- subset(data, data$promotion %in% 11:20)
group3 <- subset(data, data$promotion %in% 21:30)
...
group10 <- subset(data, data$promotion %in% 91:100)
现在我可以wilcox.test
通过键入来测试组之间是否存在显着差异
wilcox.test(group2, group1, alternative="greater")
这给出了一个低 p 值,即group2
显着new_good_users
高于group1
。这同样适用于
wilcox.test(group3, group2, alternative="greater")
但是 我得到一个 0.20 的 p 值,即和之间wilcox.test(group4, group3, alternative="greater")
没有显着new_good_users
差异。其余的组对最多 10 个也是如此。group4
group3
所以这必须意味着,如果我们promotion
在第一组增加,我们就会增加,new_good_users
但在最后一组我们没有增加。这意味着我们在group3
promotion-value所在的位置有一个甜蜜点21:30
。这不正确吗?