尝试根据人口统计和服务计算访问次数。数据非常倾斜。
直方图:
qq图(左为对数):
m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)
city
是因子service
变量。
我得到了所有变量的低 p 值 ***,但我也得到了 0.05 的低 r 平方。我该怎么办?另一个模型会起作用吗,比如指数模型或其他模型?
尝试根据人口统计和服务计算访问次数。数据非常倾斜。
直方图:
qq图(左为对数):
m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)
city
是因子service
变量。
我得到了所有变量的低 p 值 ***,但我也得到了 0.05 的低 r 平方。我该怎么办?另一个模型会起作用吗,比如指数模型或其他模型?
鉴于以下情况,线性回归不是您的结果的正确选择:
您可以选择的估计策略取决于结果变量的“结构”。也就是说,如果您的结果变量的值受到限制(即,如果它是一个有限的因变量),您需要选择一个模型,其中预测值将落在您的结果的可能范围内。虽然有时线性回归是有限因变量的良好近似值(例如,在二进制 logit/probit 的情况下),但通常不是。输入广义线性模型。在您的情况下,由于结果变量是计数数据,因此您有多种选择:
选择通常是凭经验确定的。我将在下面简要讨论在这些选项之间进行选择。
泊松与负二项式
一般来说,泊松是我上面提到的 4 个计数数据模型的首选“通用主力”模型。该模型的一个限制是假设条件方差 = 条件均值,这可能并不总是正确的。如果您的模型过度分散(条件方差 > 条件均值),则需要改用负二项式模型。幸运的是,当您运行负二项式时,输出通常包括色散参数的统计测试(R 将此色散参数称为“theta ( )”,在其他包中称为“alpha”)。Poisson vs. Negative Binomial 之间选择的原假设是:,而备择假设是。是显着的,模型中有过度分散的证据,您会选择负二项式而不是泊松。如果系数在统计上不显着,则呈现泊松结果。
ZIP 与 ZINB
一个潜在的并发症是零通货膨胀,这可能是一个问题。这就是零膨胀模型 ZIP 和 ZINB 的用武之地。使用这些模型,您假设生成零值的过程与生成其他非零值的过程是分开的。与之前一样,ZINB 适用于结果具有过多零且过度分散的情况,而 ZIP 适用于结果具有过多零但条件均值 = 条件方差的情况。对于零膨胀模型,除了您上面列出的模型协变量外,您还需要考虑可能产生您在结果中看到的多余零的变量。同样,这些模型的输出附带了一些统计测试(有时您可能必须在执行命令时指定它们),这将使您凭经验决定哪种模型最适合您的数据。有两个有趣的测试:第一个是离散参数的系数测试,第二个是所谓的 Vuong 测试,它告诉您是否由单独的过程生成多余的零(即是否存在实际上,结果是零通货膨胀)。
在比较 ZIP 和 ZINB 之间的选择时,您将再次查看色散参数的测试。同样,(ZIP 更适合)和(ZINB 更适合)。Vuong 测试允许您在 Poisson 与 ZIP 或 NB 与 ZINB 之间做出决定。对于 Vuong 测试, 适合),适合)。
其他用户可以评论“通常”的工作流程,但我的方法是可视化数据并从那里开始。在你的情况下,我可能会从 ZINB 开始,对上的系数进行测试和 Vuong 测试,因为它是对上的系数的测试会告诉你 ZIP 和 ZINB 之间哪个更好,并且Vuong 测试会告诉您是否应该使用零膨胀模型。
最后,我不使用 R,但UCLA 数据分析示例页面上的 IDRE可以指导您拟合这些模型。
[由另一个没有足够声誉的用户发表评论:本文解释了为什么不应该使用 Vuong 检验来比较零通胀模型并提供替代方案。
P. Wilson,“滥用非嵌套模型的 Vuong 检验来检验零通胀。” 经济学快报,2015 年,卷。127,问题 C,51-53 ]
尝试使用 Gamma 分布的广义线性模型。它可以很好地近似您的因变量,因为它是正数并且在 x=0 处等于零。我在类似的案例中使用了 R 和 GLM 并取得了一些成功。
所有的统计假设都是关于模型的错误。如果您使用反映星期几的 6 个指标系列构建一个简单模型……您将开始看到更好的错误分布。继续合并月度影响和假日影响(之前、之后和之后),错误的分布会变得更好。添加日期、星期、长周末指标甚至会变得更好。
查看根据当前和历史数据预测客人数量的简单方法和 https://stats.stackexchange.com/search?q=user%3A3382+daily+data以获得更多乐趣。