简单回归的意义,而不是多元回归

机器算法验证 回归 统计学意义 相互作用
2022-04-04 06:38:52

背景:我试图显示一些变量的增加超过time,所以最初我运行了一个简单的线性回归。但是,我对数据进行了子集化,以便我可以获得每个组合的回归估计speciesreef这将表明每年的变化)。

整个回归看起来像

lm(Density ~ Time, data=data, subset=ReefSpecies=="ReefSpecies1).

下面我展示了Density其中一个响应变量 whereLittle Grecian, etc = Reef和的输出O. annularis, etc = Species有 3 个显着和 2 个边缘显ReefSpeciestime第二列是estimate,第三列是F-value,最后一列是p-value

在此处输入图像描述

当然,我对输出很满意,但我也想建立一个线性模型,看看是什么导致了我的响应变量的这种增加/减少/没有变化。

线性模型看起来像这样:lm(Density ~ Species + I(Chl_zoox^0.25) + Season + TN + Biomass + Turbidity + FvFm + Time, data=Seasonal)输出表明这time是不显着的。

在此处输入图像描述

Reef*Species*Time最后,有人告诉我,如果我用(例如)的三向交互进行回归,lm(Density ~ I(Chl_zoox^0.25) + Season + TN + Biomass + Turbidity + FvFm + Species*Reef*Time, data=Seasonal)理论上我会得到与简单线性回归(lm(Density ~ Time, data=data, subset=ReefSpecies=="ReefSpecies1))相同的估计值。显然,情况并非如此,我收到NA了一些输出。

在此处输入图像描述

问题:

1.为什么多元回归和简单回归的显着性有差异?

据我了解,多元回归具有更大的力量,因此应该仍然很重要。

2.我认为我可能错误地解释了相互作用,但似乎简单回归中的估计不等于(但接近)多元回归估计(例如 -Jaap - O. faveolata = -0.2504在简单回归中但在多元回归中0.001487 + 0.092568 + 0.559377 - 0.818717 = -0.1652)。

我如何解释这种交互以获得相似的值?为什么它们不重要?

3.NA交互输出中的处理是什么?这与多重共线性有关吗?

1个回答

首先,多元回归不一定具有更大的功效,尤其是当您指定的交互项如此之多时。每个额外变量、每个额外因子水平和每个额外交互都会占用自由度,因此如果额外变量/因子水平/交互与您的结果变量无关,您可能会降低检测真正差异的能力。

其次,您希望将简单回归的结果与多元回归中的系数组合相匹配,这与您在之前的分析尝试中将截距与组均值进行比较时遇到的问题相同。如果您没有一个完美平衡的设计,每组中的案例数量相同,则无法保证您可以通过这种方式匹配这些值。

第三,您的初始数据摘要显示,O.franksi除了鳄鱼,在任何珊瑚礁环境中都没有。因此无法获得包含与 的交互作用的O.franksi系数Reef您没有关于 4 个Reef环境中的 3 个的数据。因此 NA 值。

你似乎做了很多工作来收集这些数据。鉴于这些数据的性质,您可能在某种类型的学术机构中,几乎肯定会有当地的统计专业知识。尽管我在这个网站上回答问题很有趣,但您最好确定并开始与附近的人合作,他们可以近距离查看您的数据细节并帮助您以最佳方式分析它们得到你所问的科学问题。