机器算法验证 - 广义线性模型 (GLM) 的潜在变量解释 - 吾爱随笔录

广义线性模型 (GLM) 的潜在变量解释

机器算法验证物流广义线性模型泊松回归概率潜变量

2022-02-12 00:30:15

简洁版本：

我们知道逻辑回归和概率回归可以解释为涉及一个连续的潜在变量，该变量在观察之前根据某个固定阈值进行离散化。类似的潜在变量解释是否可用于泊松回归？当有两个以上的离散结果时，二项式回归（如 logit 或 probit）如何？在最一般的层面上，有没有一种方法可以根据潜在变量来解释任何 GLM？

长版：

激励二元结果的概率模型的标准方法（例如，来自维基百科）如下。我们有一个未观察到的/潜在的结果变量 $Y$ 这是正态分布的，以预测变量为条件 $X$ . 这个潜在变量受到阈值处理，因此我们实际观察到的离散结果是 $u=1$ 如果 $Y \ge \gamma$ , $u=0$ 如果 $Y < \gamma$ . 这导致概率 $u=1$ 给定 $X$ 采用 Normal CDF 的形式，均值和标准差是阈值的函数 $\gamma$ 和回归的斜率 $Y$ 在 $X$ ，分别。因此，probit 模型的动机是作为一种从潜在回归中估计斜率的方法 $Y$ 在 $X$ .

下图说明了这一点，来自 Thissen & Orlando (2001)。这些作者在技术上讨论项目响应理论中的正常 ogive 模型，这看起来很像我们的目的的概率回归（请注意，这些作者使用 $\theta$ 代替 $X$ , 概率写成 $T$ 而不是通常的 $P$ ）。

我们可以用几乎完全相同的方式解释逻辑回归。唯一的区别是现在未观察到的连续 $Y$ 遵循逻辑分布，而不是正态分布，给定 $X$ . 为什么的理论论证 $Y$ 可能遵循逻辑分布而不是正态分布不太清楚......但由于实际用途（重新缩放后）生成的逻辑曲线看起来与正常 CDF 基本相同，可以说它不会很重要练习你使用的模型。关键是这两个模型都有一个非常简单的潜在变量解释。

我想知道我们是否可以将看起来相似（或者，地狱，看起来不相似）的潜在变量解释应用于其他 GLM——甚至是任何GLM。

甚至扩展上述模型以解释二项式结果 $n>1$ （即，不仅仅是伯努利的结果）我并不完全清楚。据推测，人们可以通过想象而不是只有一个阈值来做到这一点 $\gamma$ ，我们有多个阈值（比观察到的离散结果的数量少一个）。但是我们需要对阈值施加一些限制，比如它们是均匀分布的。我很确定这样的事情可以奏效，尽管我还没有弄清楚细节。

转向泊松回归的情况对我来说似乎更不清楚。在这种情况下，我不确定阈值的概念是否会成为考虑模型的最佳方式。我也不确定我们可以设想潜在结果具有什么样的分布。

对此最理想的解决方案将是一种根据具有某些分布或其他分布的潜在变量来解释任何GLM 的通用方法——即使该通用解决方案意味着与 logit/probit 回归的通常解释不同的潜在变量解释。当然，如果通用方法与 logit/probit 的通常解释一致，而且还自然地扩展到其他 GLM，那就更酷了。

但即使这种潜在变量解释在一般 GLM 案例中通常不可用，我也想听听我上面提到的二项式和泊松案例等特殊情况的潜在变量解释。

参考

Thissen, D. & Orlando, M. (2001)。项目反应理论在两个类别中得分的项目。在 D. Thissen & Wainer, H. (Eds.), Test Scoring (pp. 73-140)。新泽西州马瓦：Lawrence Erlbaum Associates, Inc.

编辑 2016-09-23

有一种微不足道的意义，任何 GLM 都是潜在变量模型，也就是说，我们可以说总是将被估计的结果分布的参数视为“潜在变量”——也就是说，我们不直接观察，比如说泊松的速率参数，我们只是从数据中推断出来。我认为这是一个相当琐碎的解释，并不是我真正想要的，因为根据这种解释，任何线性模型（当然还有许多其他模型！）都是“潜在变量模型”。例如，在正态回归中，我们估计一个“潜在的” $\mu$ 正常的 $Y$ 给定 $X$ . 所以这似乎将潜变量建模与参数估计混为一谈。例如，在泊松回归案例中，我正在寻找的东西看起来更像是一个理论模型，说明为什么观察到的结果首先应该具有泊松分布，给定一些假设（由您填写！）关于潜在的分布 $Y$ ，选择过程，如果有，等等。然后（也许至关重要？）我们应该能够根据这些潜在分布/过程的参数来解释估计的 GLM 系数，类似于我们如何解释概率回归中的系数潜在正态变量的平均偏移和/或阈值的偏移 $\gamma$ .

1个回答

对于具有多个离散结果的模型，有多个版本的 logit 模型（例如，条件 logit、多项式 logit、混合 logit、嵌套 logit……）。请参阅 Kenneth Train 关于该主题的书： http: //eml.berkeley.edu/books/choice2.html

例如，在条件 logit 中，结果， $y$ , 是个人选择的汽车, 可能有, 比如 $J$ 可供选择的汽车和汽车 $j$ 具有由给出的属性 $x_j$ . 那么假设个人 $i$ 接收效用 $u_{ij} = x_j \beta + \varepsilon_{ij}$ 从选车 $j$ ，在哪里 $\varepsilon_{ij}$ 是分布 I 型极值。那么车的概率 $j$ 被选择由

Pr (y = j) = \frac{\exp (x_{j} β)}{\sum_{k = 1}^{J} \exp (x_{k} β)}

$\Pr(y=j) = \frac{\exp(x_j \beta)}{\sum_{k=1}^J \exp (x_k \beta)}$

在这个模型中，形成了备选方案的排名。我们正在搜索参数，以便该排名符合我们看到人们做出的观察到的选择。例如，如果更昂贵的汽车在其他条件下具有更低的市场份额，那么价格系数必须为负。 $u_{ij}$ $\beta$

经济学家将解释为做出每个选择的潜在“效用”。在微观经济学中，有大量关于效用理论的工作：参见例如https://en.wikipedia.org/wiki/Utility。 $u$

请注意，这里没有“阈值”参数：相反，当一个效用变得大于以前的最大效用时，消费者将切换到选择该替代方案。

中不能有截距：如果有，这只会扩大所有可用选项的效用，保留排名并保持选择不变。 $x_j \beta$

其它你可能感兴趣的问题

上一篇Shrunken vs unbiased的估计量rrrrρρ 下一篇时间序列的假设检验和意义