如何找到甜蜜点

机器算法验证 计数数据
2022-03-26 15:24:38

在 RI 有data哪里head(data)给出

day   new_users   promotion
1        33        20.8
2        23        17.1  
3        19         1.6  
4        37        20.8    

现在day只是这一天(并且是有序的)。promotion是当天的促销价值——它只是电视广告的成本。new_users是我们当天获得的新用户数量。

在 RI 中绘制数据plot(data$promotion, data$new_users, col="darkgreen"),我们得到 在此处输入图像描述

该图表明我们有一个正相关,即更多的推广我们获得更多的新用户。在正相关的 RI 测试中:

cor.test(data$promotion, data$new_users, method="kendall", alternative="greater") 

这给了我们一个非常低的 p 值,即我们有正相关。

寻找甜蜜点

我想找到一个甜蜜点,即增加promotion不影响(或不增加)的点new_users

# Setting the promotion-value to 24
promotion_rate = 24
# Sub setting data so we only have promotion-value higher than 24
data_new =  subset(data, data$promotion > 24)
# Testing for positive correlation
cor.test(data_new$promotion, data_new$new_users, method="kendall", alternative="greater" )

我已经为promotion_rate. 结果是对于低于 24 的所有提升值,我们得到一个低 p 值,即在这些情况下我们具有正相关。对于高于 24 的提升值,我们得到一个高于 0.05 的 p 值,即在这些情况下我们没有正相关。

现在可以得出结论说 24 是最佳位置吗?

更新

我现在已经绘制了new_usersRI 类型的 -的累积总和

plot(cumsum(data$new_users), xlab="days", ylab="cumulative sum of new_users", col="darkred")

在此处输入图像描述

类似地,我绘制了promotion. 蓝色是new_users,橙色是promotion

plot(cumsum(data$new_users),xlab="days",col="blue")
points(cumsum(data$promotion), col="darkorange")

在此处输入图像描述

但这看起来像一条直线,所以甚至有可能找到一个甜蜜点吗?

3个回答

通过“最佳点”,我认为我们可以假设您的意思是拐点——新用户增长翻转并开始趋于渐近最大值的点。不乏分析这些信息的方法。其中之一是作为扩散过程。可以帮助您将其可视化的方法不是将其视为散点图,而是绘制每天累积的新用户数。该曲线的形状应该暗示拐点。基本思想是增长呈 S 形——开始和结束缓慢,曲线中间快速上升。

该过程的数学建模始于 19 世纪早期的 Gompertz,但还有许多其他更新的模型。这篇 wiki 帖子 ( https://en.wikipedia.org/wiki/Gompertz_function ) 描述了该模型:

在此处输入图像描述

公式

y(t)=aebect, 其中

a 是渐近线,因为 ,是正数设置沿轴的位移(将图形向左或向右平移)设置增长率(缩放)是欧拉数()。limta>ebect=ae0=abcbxcyee=2.71828

(对任何错误的格式表示歉意)

在新产品的营销中,罗杰斯的扩散模型是任何领域中被引用最多的论文之一。

在此处输入图像描述

他的模型由弗兰克巴斯给出了数学公式,多年来已经看到了许多修正和变化。

Bass, FM (1969),“耐用消费品的新产品增长模式”,管理科学,215-227

在生物数学中开发了其他模型来描述例如豌豆荚的生长。称为此处(此处)描述的Fisher-Pry 变换Fisher-Pry 已被洛克菲勒大学人类环境计划等团体应用于新技术的传播。

到目前为止提到的所有模型基本上都涉及单变量分析。最近对多元回归模型进行了扩展。这些讲义中提供了这些更高级模型的好资源(这将有助于将促销支出作为协变量引入并包含 R 代码):

http://www.unc.edu/courses/2008fall/ecol/563/001/docs/lectures/lecture27.htm

以下是该网站的内容:

  • 非线性混合效应模型概述
  • 决定在线性混合效应模型中哪些参数应该是随机的
  • 使预测变量居中以减少线性模型中的参数相关性
  • 红隼数据集
  • 冈佩兹模型
  • R中的selfStart函数
  • 决定在 Gompertz 混合效应模型中哪些参数应该是随机的 解释 SSgompertz 函数的参数

您在这里处理的是一个以计数数据作为响应变量的回归问题。在推测广告水平是否存在“甜蜜点”之前,我建议您尝试对这些变量之间的关系进行建模。负二项式 GLM将是一个很好的起点(请参阅此处了解关于 中的实现的进一步讨论R):

#Fit a negative binomial regression model
MODEL <- glm.nb(new_users ~ promotion, data = data)

#Show the model
MODEL
summary(MODEL)

在进行回归分析时,重要的是进行各种诊断测试以检查您的模型是否正常。完成此操作并确定合适的模型后,您可以对变量之间的关系进行推断,这是比仅观察样本相关性更详细的推断。具体来说,您可以在给定广告级别的情况下,对新用户数量的条件分布进行推断。

一旦您获得了给定特定广告水平的新用户数量的条件分布的合理估计(例如,通过负二项式 GLM),您就可以预测可以从一个广告中获得多少新用户。增加广告,从任何现有的广告水平开始。您可以将其与广告成本信息结合起来,让您判断是否存在广告最具成本效益的“最佳位置”。

你不能从数据中推断出这样一个点确实存在。您的脑海中有一个理论,即在某些时候更多的 trp 不会获得更多的用户,但这不在您的数据中。您需要将此信念表述为数学模型,然后将您的数据拟合到该模型,然后您可以向模型提出您的问题。例如,您可以相信指数函数描述了这种关系,然后将指数函数拟合到数据中并进行调查,当指数函数的斜率变得如此低时,您认为出于实际目的它等于零。或者您可能想要拟合一条多项式曲线并寻找一个真正斜率为零的地方。相关性的 p 值在很大程度上取决于您在特定 Intervall 中是否有足够的数据点。