我正在处理一个大型数据集(机密,所以我不能分享太多),并得出结论,负二项式回归是必要的。我以前从未做过 glm 回归,也找不到任何关于假设是什么的明确信息。它们对于 MLR 是否相同?
我可以以相同的方式转换变量吗(我已经发现转换因变量是一个错误的调用,因为它需要是自然数)?我已经确定负二项分布有助于我的数据过度分散(方差约为 2000,平均值为 48)。
谢谢您的帮助!!
我正在处理一个大型数据集(机密,所以我不能分享太多),并得出结论,负二项式回归是必要的。我以前从未做过 glm 回归,也找不到任何关于假设是什么的明确信息。它们对于 MLR 是否相同?
我可以以相同的方式转换变量吗(我已经发现转换因变量是一个错误的调用,因为它需要是自然数)?我已经确定负二项分布有助于我的数据过度分散(方差约为 2000,平均值为 48)。
谢谢您的帮助!!
我正在处理一个大型数据集(机密,所以我不能分享太多),
可以创建一个小型数据集,该数据集具有真实数据的一些一般特征,既没有变量名,也没有任何实际值。
并得出结论,负二项式回归是必要的。我以前从未做过 glm 回归,也找不到任何关于假设是什么的明确信息。它们对于 MLR 是否相同?
显然不是!您已经知道您假设响应是有条件的负二项式,而不是有条件的正常。(一些假设是共享的。例如独立性。)
让我先更一般地谈谈 GLM。
GLM 包括多元回归,但以多种方式概括:
1) 响应的条件分布(因变量)来自指数族,包括泊松、二项式、伽马、正态和许多其他分布。
2)平均响应通过链接函数与预测变量(自变量)相关。每个分布族都有一个关联的规范链接函数 - 例如在 Poisson 的情况下,规范链接是log。规范链接几乎始终是默认链接,但在大多数软件中,您通常在每个分发选项中都有多个选项。对于二项式,规范链接是 logit(线性预测器是建模,成功的对数几率,或“1”),对于 Gamma,规范链接链接是相反的 - 但在这两种情况下,经常使用其他链接函数。
因此,如果您的响应是并且您的预测变量是和,那么您可以使用带有日志链接的泊松回归来描述的平均值与的关系:
(被称为“线性预测器”,这里的链接函数为,符号常用于表示链接函数)
3)响应的方差不是恒定的,而是通过方差函数(平均值的函数,可能乘以缩放参数)进行操作。例如,泊松的方差等于均值,而伽玛的方差与均值的平方成正比。(准分布允许方差函数与假设分布有一定程度的解耦)
--
那么,哪些假设与您从 MLR 中记住的相同?
独立仍然存在。
不再假设同方差;方差明显是均值的函数,因此通常随预测变量而变化(因此,虽然模型通常是异方差的,但异方差采取特定形式)。
线性:模型在参数上仍然是线性的(即线性预测器是),但预期的响应与它们不是线性相关的(除非你使用恒等链接函数!)。
响应的分布更加普遍
输出的解释在很多方面都非常相似。例如,您仍然可以查看估计系数除以它们的标准误差,并以类似方式解释它们(它们是渐近正态的 - 沃尔德 z 检验 - 但人们似乎仍然称它们为 t 比率,即使没有理论可以使它们分布的)。
嵌套模型之间的比较(通过类似设置的“anova-table”)有点不同,但相似(涉及渐近卡方检验)。如果您对 AIC 和 BIC 感到满意,则可以计算这些值。
通常使用类似类型的诊断显示,但可能更难解释。
如果您牢记差异,您的大部分多元线性回归直觉将继续存在。
这是一个例子,你可以用 glm 做一些你不能用线性回归做的事情(事实上,大多数人会为此使用非线性回归,但 GLM 更容易更好)在正常情况下 -是正常的,建模为的函数:
(即对数链接)
和之间的指数关系的最小二乘拟合。
我可以以相同的方式转换变量吗(我已经发现转换因变量是一个错误的调用,因为它需要是自然数)?
您(通常)不想转换响应(DV)。您有时可能希望转换预测变量 (IV) 以实现线性预测变量的线性。
我已经确定负二项分布有助于我的数据过度分散(方差约为 2000,平均值为 48)。
是的,它可以处理过度分散。但请注意不要将有条件分散与无条件分散混淆。
另一种常见的方法 - 如果有点笨拙并且对我来说不太令人满意 - 是准泊松回归(过度分散的泊松回归)。
对于负二项式,如果您指定其参数中的一个特定参数(至少通常为 GLMS 重新参数化的方式),它就属于指数族。如果您指定参数,某些包将适合它,其他包将围绕 GLM 例程包装该参数的 ML 估计(例如通过配置文件似然性),从而使过程自动化。有些会限制您使用较小的分布集;你没有说你可能使用什么软件,所以很难说更多。
我认为通常对数链接倾向于与负二项式回归一起使用。
有许多介绍性文档(通过 google 很容易找到)介绍了一些基本的 Poisson GLM,然后是负二项式 GLM 数据分析,但您可能更喜欢看一本关于 GLM 的书,也许先做一点 Poisson 回归只是为了习惯。
我发现一些参考资料有助于分析具有负二项分布的数据(包括列出假设),而 GLM/GLMM 通常是:
Bates、DM、B. Machler、B. Bolker 和 S. Walker。2015. 使用 lme4 拟合线性混合效应模型。J.统计。软件 67:1-48。
Bolker、BM、ME Brooks、CJ Clark、SW Geange、JR Poulsen、MHH Stevens 和 J. White。广义线性混合模型:生态学和进化的实用指南。生态与进化趋势 127-135。
Zeileis A.、C. Keleiber C 和 S. Jackman 2008。RJ Stat 中计数数据的回归模型。软件。27:1-25
Zuur AF、EN Iene、N. Walker、AA Saveliev 和 GM Smith。2009. 美国纽约州 R. Springer 的生态学混合效应模型和扩展。