将总和为 1 的比例解释为线性回归中的自变量

机器算法验证 回归 解释 部分 多重共线性
2022-01-29 12:43:03

我熟悉分类变量的概念和相应的虚拟变量编码,它们允许我们将一个级别作为基线以避免共线性。我也熟悉如何从此类模型中解释参数估计:相对于基线类别,分类预测变量的给定拟合水平的结果预测变化。

我不确定的是如何解释一组自变量,这些变量的比例总和为 one如果我们拟合模型中的所有比例,我们就会再次出现共线性,因此我们可能不得不将一个类别作为基线排除。我还假设我会查看 III 型 SS 来全面测试这个变量的重要性。但是,我们如何解释模型中适合的那些水平的参数估计值与被认为是基线的那些水平?

一个例子:在邮政编码级别,自变量是变质岩、火成岩和沉积岩的比例。如您所知,这是三大岩石类型,所有岩石都属于其中之一。因此,所有三个的比例总和为 1。结果是相应邮政编码中的平均氡气水平。

例如,如果我将变质火成岩比例作为模型中的预测因子进行拟合,将沉积物作为基线,则两个拟合水平的总体 III 型 SS F检验将表明岩石类型作为一个整体是否重要结果的预测因子(平均氡水平)。然后,我可以查看各个p值(基于t分布)以确定一种或两种岩石类型是否与基线显着不同。

然而,当涉及到参数估计时,我的大脑一直想将它们纯粹解释为组(岩石类型)之间结果的预测变化,我不明白如何将它们作为比例拟合的事实.

如果β例如,变质的估计值为0.43,解释不仅仅是当岩石变质与沉积时预测的平均氡气水平增加 0.43 个单位。然而,解释也不仅仅是变质岩类型比例的某种单位增加(比如 0.1),因为这并不能反映它也相对于基线(沉积)的事实,此外,这种变化变质的比例固有地改变了模型中其他岩石水平的比例,火成岩

有没有人有提供这种模型解释的来源,或者如果没有,你能在这里提供一个简短的例子吗?

1个回答

作为后续行动,我认为正确的答案(对我来说似乎很合理):我将这个问题发布到 ASA Connect 列表服务器上,并得到了 Stony Brook 的 Thomas Sexton 的以下回复:

“您估计的线性回归模型如下所示:

ln(Radon) = (其他变量的线性表达式) + 0.43M + 0.92I

其中 M 和 I 分别代表邮政编码中变质岩和火成岩的百分比。您受到以下限制:

M + I + S = 100

其中 S 代表邮政编码中沉积岩的百分比。

对 0.43 的解释是,在模型中所有其他变量保持不变的情况下,M 增加 1 个百分点与 ln(Radon) 增加 0.43 相关因此,I 的值不能改变,在满足约束的同时使 M 增加 1 个百分点的唯一方法是使省略的类别 S 减少 1 个百分点。

当然,这种变化不会发生在 S = 0 的邮政编码中,但在这样的邮政编码中,M 的减少和 S 的相应增加是可能的。”

这是 ASA 的链接:http: //community.amstat.org/communities/community-home/digestviewer/viewthread ?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-4427476d3ddf&sKey=bf9cef9062314b07a5f2#bm3

我将此作为已接受的正确答案发布,但如果有人要添加一些内容,我仍然愿意进一步讨论。