我熟悉分类变量的概念和相应的虚拟变量编码,它们允许我们将一个级别作为基线以避免共线性。我也熟悉如何从此类模型中解释参数估计:相对于基线类别,分类预测变量的给定拟合水平的结果预测变化。
我不确定的是如何解释一组自变量,这些变量的比例总和为 one。如果我们拟合模型中的所有比例,我们就会再次出现共线性,因此我们可能不得不将一个类别作为基线排除。我还假设我会查看 III 型 SS 来全面测试这个变量的重要性。但是,我们如何解释模型中适合的那些水平的参数估计值与被认为是基线的那些水平?
一个例子:在邮政编码级别,自变量是变质岩、火成岩和沉积岩的比例。如您所知,这是三大岩石类型,所有岩石都属于其中之一。因此,所有三个的比例总和为 1。结果是相应邮政编码中的平均氡气水平。
例如,如果我将变质和火成岩比例作为模型中的预测因子进行拟合,将沉积物作为基线,则两个拟合水平的总体 III 型 SS F检验将表明岩石类型作为一个整体是否重要结果的预测因子(平均氡水平)。然后,我可以查看各个p值(基于t分布)以确定一种或两种岩石类型是否与基线显着不同。
然而,当涉及到参数估计时,我的大脑一直想将它们纯粹解释为组(岩石类型)之间结果的预测变化,我不明白如何将它们作为比例拟合的事实.
如果例如,变质的估计值为0.43,解释不仅仅是当岩石变质与沉积时预测的平均氡气水平增加 0.43 个单位。然而,解释也不仅仅是变质岩类型比例的某种单位增加(比如 0.1),因为这并不能反映它也相对于基线(沉积)的事实,此外,这种变化变质的比例固有地改变了模型中其他岩石水平的比例,火成岩。
有没有人有提供这种模型解释的来源,或者如果没有,你能在这里提供一个简短的例子吗?