机器算法验证 - 为什么可以在贝叶斯多级模型中将人口统计建模为随机效应？ - 吾爱随笔录

为什么可以在贝叶斯多级模型中将人口统计建模为随机效应？

机器算法验证贝叶斯多层次分析随机效应模型

2022-03-22 22:12:03

在贝叶斯多层次模型中（比如说，人们嵌套在国会选区内），我有时会看到个人层次的人口统计变量，比如种族建模为随机效应。所以这里有一个稍微简化的例子： Pr

P r (y_{i} = 1) = {logit}^{- 1} (γ_{0} + α_{r [i]}^{r a c e} + α_{g [i]}^{g e n d e r} + α_{e [i]}^{e d u} + α_{d [i]}^{d i s t r i c t} . . .)

$Pr(y_i=1)=\text{logit}^{-1}(\gamma_0 + \alpha^{race}_{r[i]} +\alpha^{gender}_{g[i]}+\alpha^{edu}_{e[i]}+\alpha^{district}_{d[i]}...)$

α_{r [i]}^{r a c e} \sim N (0, σ_{r a c e}^{2}), f o r r = 1, . . . .4

$\alpha^{race}_{r[i]} \sim N(0,\sigma^2_{race}), for~r = 1,....4$

α_{g [i]}^{g e n d e r} \sim N (0, σ_{g e n d e r}^{2})

$\alpha^{gender}_{g[i]} \sim N(0,\sigma^2_{gender})$

α_{e [i]}^{e d u} \sim N (0, σ_{e d u}^{2}), f o r e = 1, . . ., 5

$\alpha^{edu}_{e[i]} \sim N(0,\sigma^2_{edu}), for ~e=1,...,5$ 据我了解，该模型将所有个人层面的人口统计变量视为“随机效应”，就像地区一样。因此，对于种族，假设数据中存在的 4 个种族类别（黑人、白人、西班牙裔、其他）实际上只是从所有可能种族的更大人口中随机抽取的 4 个。对我来说，这似乎很奇怪和错误，因为我们在数据中拥有的种族类别是详尽无遗的，似乎没有任何理由认为种族差异会呈正态分布。

所以我的问题是：我对这个模型的解释是否正确，如果是，为什么它是合理的？

我知道之前确实有人问过这个问题，但他们得到的答案是，将种族等视为随机效应可能是不合适的。但这正是贝叶斯多级模型的许多论文中所做的。

4个回答

我建议您查看@Paul 的这个答案，以获取有关所谓“随机效应”和分层模型的指导。特别是，这句话是正确的：

随机效应是通过部分汇集来估计的，而固定效应不是。

部分池化意味着，如果您在一个组中的数据点很少，则该组的效果估计将部分基于来自其他组的更丰富的数据。这可以是通过完全汇集所有组来估计效果之间的一个很好的折衷方案，这掩盖了组级别的变化，以及完全分别估计所有组的效果，这可能会对低样本组产生较差的估计。

答案是一个例子，并讨论了这种方法与分层贝叶斯建模的关系。

这种汇集正是你引用的论文的作者打算用他们的多层次方法做的：*

...一个多级模型将组级参数汇集到它们的平均值，当组级方差较小时池化更大，而人口较少的组则更平滑。池化程度来自数据内生...

因此，尽管经常有人认为具有少量级别（性别、种族）的类别应该被视为回归中的固定效应，但它们需要被视为随机效应来完成这种部分池化。

*作者为此在 R 中使用了 GLMER，所以我想这个特定的例子并不是严格的贝叶斯方法。

“固定”和“随机”效应是常客模型的术语。事实上，它不是最好的，也不是一致使用的术语。在频率统计中，您试图找到参数的点估计，但随机变量除外，您想了解这些影响的分布。在贝叶斯统计中，每个参数都被视为随机变量，我们想了解它的分布，所以没有这种区别。

社会地位和社会认同的类别——包括常见的人口变量——是人口的重要分界线。在人口科学中，非常强调区分人口的平均或中位数（中心）经验，但是，人口内分布的经验的可变性也非常重要。

以收缩压 (SBP) 为例：它大致呈正态分布，可以想象两个人群的平均SBP 几乎相同，甚至相同。这是否意味着两个人群在血压方面的健康状况相同？不！如果一个人群的变异性要大得多，那么其与 SBP 相关的健康状况实际上要差得多。首先，除了个人来自哪个人群之外，我们一无所知，我们不太确定他们的 SBP。其次，如果存在 SBP 的极端值（发生坏事的风险急剧上升的它的值；SBP>130 中风风险急剧增加，SBP<90 因低血压而醒来时急剧增加），那么具有更大变异性的人群具有更多，可能更远更多的人在极端情况下“跌入谷底”。下图中的青色阴影区域（我制作的卡通，不是实际数据）是蓝色人群中的人因高血压或低血压而处于高风险的可能性比红色人群中的人高。越多变的人口越容易受到伤害。

回到你的问题，当前美国（和全球！）社会动荡的时刻，反对几个世纪以来制度化的反黑人种族主义，反对美洲印第安人、夏威夷人和太平洋岛民以及阿拉斯加原住民的五千年殖民化，指出了脆弱性——结果的不确定性增加，极端数量的增加——由种族人口群体（以及其他人）定义的人口是寻找方法的一个很好的理由，例如使用混合模型/随机效应模型/分层线性模型/多级型号/等（正如@Tim 正确指出的那样，语言有点混乱）来提供人口变异性的估计。

注意：我不认为这是贝叶斯与频率论的问题，而是我们周围世界的实质性建模问题。

一种解释是称为“随机效应”是没有帮助的。 $\alpha^{race}$

实际上，看起来种族效应（例如）有一个分层的 PRIOR，也就是说，以种族效应方差为条件，我们有一个正常的事先的。反过来，应该有一个先验，有效地使有一个混合分布的先验。如前所述，将其视为随机效应并没有真正的帮助，超参数并没有真正有用的定义（因为，正如你所说，种族不是从种族）。做一个事后解释 $\alpha^{race}\sim N(0,\sigma^2_{race})$ $\sigma^2_{race}$ $\alpha^{race}$ $\sigma^2_{race}$ $\sigma^2_{race}$ 作为种族效应有多么不同的指南，但为了这个目的，您可以直接比较值。 $\alpha^{race}$

只是的先验定义的一部分。上放置一个巨大的常数值可能同样好，从而使具有模糊的先验。 $\sigma^2_{race}$ $\alpha^{race}$ $\sigma^2_{race}$ $\alpha^{race}$

其它你可能感兴趣的问题

上一篇计算正态分布的百分位数下一篇为什么对决策树进行对数转换为正态分布？