如何理解 R 公式中的竖线(管道)

机器算法验证 r 回归 t检验 权重 广义最小二乘法
2022-04-03 07:31:16

我之所以遇到这个,是因为我想使用gls. 我在这里找到了答案:

https://stats.stackexchange.com/a/144480/141304

它说要添加权重

gls(y ~ group, data = dat, weights=varIdent(form = ~ 1 | group))

y是模型中group的变量。我不知道是什么form我通读了关于glsglmweights等的帮助,但找不到任何解决该问题的内容。

一些关于 R 公式的教程让我知道管道意味着条件,就像概率一样。我理解概率条件下的条件,但我无法理解回归中的含义。

假设我有四个预测变量 A、B、C、D 和一个响应变量 X。A 和 B 是连续的;C 和 D 是具有两个级别的分类。

下面的公式(或回答者可能想要解释的任何其他公式)是什么意思?

X ~ A + A|B
X ~ A + B|C
X ~ A + B + C|D

1个回答

假设只有两组:组 1 和组 2。您指定的 gls() 调用适合您的两个子模型y观察 - 一个子模型y第一组的观察结果和另一个子模型y第二组观察。

观测的子模型y在第 1 组中假设y=β0+ϵ, 在哪里ϵ表示来自均值为 0 且方差未知的正态分布的随机误差项σ12. 换句话说,这些观察是围绕真实组均值分组的β0,他们对这个真实群体的传播意味着被σ12.

第 2 组中观测值 y 的子模型假设y=β0+β1+ϵ, 在哪里ϵ表示来自均值为 0 且方差未知的正态分布的随机误差项σ22. 换句话说,这些观察是围绕真实组均值分组的β0+β1,他们对这个真实群体的传播意味着被σ22.

您提供的 gls() 调用允许两组中 y 值的传播(或可变性)关于它们各自的真​​实组均值在不同组之间是不同的(也就是说,它允许σ12不同于σ22) 通过选项 weights=varIdent(form = ~ 1 | group)。