简洁版本:
我们知道逻辑回归和概率回归可以解释为涉及一个连续的潜在变量,该变量在观察之前根据某个固定阈值进行离散化。类似的潜在变量解释是否可用于泊松回归?当有两个以上的离散结果时,二项式回归(如 logit 或 probit)如何?在最一般的层面上,有没有一种方法可以根据潜在变量来解释任何 GLM?
长版:
激励二元结果的概率模型的标准方法(例如,来自维基百科)如下。我们有一个未观察到的/潜在的结果变量这是正态分布的,以预测变量为条件. 这个潜在变量受到阈值处理,因此我们实际观察到的离散结果是如果,如果. 这导致概率给定采用 Normal CDF 的形式,均值和标准差是阈值的函数和回归的斜率在, 分别。因此,probit 模型的动机是作为一种从潜在回归中估计斜率的方法在.
下图说明了这一点,来自 Thissen & Orlando (2001)。这些作者在技术上讨论项目响应理论中的正常 ogive 模型,这看起来很像我们的目的的概率回归(请注意,这些作者使用代替, 概率写成而不是通常的)。
我们可以用几乎完全相同的方式解释逻辑回归。唯一的区别是现在未观察到的连续遵循逻辑分布,而不是正态分布,给定. 为什么的理论论证可能遵循逻辑分布而不是正态分布不太清楚......但由于实际用途(重新缩放后)生成的逻辑曲线看起来与正常 CDF 基本相同,可以说它不会很重要练习你使用的模型。关键是这两个模型都有一个非常简单的潜在变量解释。
我想知道我们是否可以将看起来相似(或者,地狱,看起来不相似)的潜在变量解释应用于其他 GLM——甚至是任何GLM。
甚至扩展上述模型以解释二项式结果(即,不仅仅是伯努利的结果)我并不完全清楚。据推测,人们可以通过想象而不是只有一个阈值来做到这一点,我们有多个阈值(比观察到的离散结果的数量少一个)。但是我们需要对阈值施加一些限制,比如它们是均匀分布的。我很确定这样的事情可以奏效,尽管我还没有弄清楚细节。
转向泊松回归的情况对我来说似乎更不清楚。在这种情况下,我不确定阈值的概念是否会成为考虑模型的最佳方式。我也不确定我们可以设想潜在结果具有什么样的分布。
对此最理想的解决方案将是一种根据具有某些分布或其他分布的潜在变量来解释任何GLM 的通用方法——即使该通用解决方案意味着与 logit/probit 回归的通常解释不同的潜在变量解释。当然,如果通用方法与 logit/probit 的通常解释一致,而且还自然地扩展到其他 GLM,那就更酷了。
但即使这种潜在变量解释在一般 GLM 案例中通常不可用,我也想听听我上面提到的二项式和泊松案例等特殊情况的潜在变量解释。
参考
Thissen, D. & Orlando, M. (2001)。项目反应理论在两个类别中得分的项目。在 D. Thissen & Wainer, H. (Eds.), Test Scoring (pp. 73-140)。新泽西州马瓦:Lawrence Erlbaum Associates, Inc.
编辑 2016-09-23
有一种微不足道的意义,任何 GLM 都是潜在变量模型,也就是说,我们可以说总是将被估计的结果分布的参数视为“潜在变量”——也就是说,我们不直接观察,比如说泊松的速率参数,我们只是从数据中推断出来。我认为这是一个相当琐碎的解释,并不是我真正想要的,因为根据这种解释,任何线性模型(当然还有许多其他模型!)都是“潜在变量模型”。例如,在正态回归中,我们估计一个“潜在的”正常的给定. 所以这似乎将潜变量建模与参数估计混为一谈。例如,在泊松回归案例中,我正在寻找的东西看起来更像是一个理论模型,说明为什么观察到的结果首先应该具有泊松分布,给定一些假设(由您填写!)关于潜在的分布,选择过程,如果有,等等。然后(也许至关重要?)我们应该能够根据这些潜在分布/过程的参数来解释估计的 GLM 系数,类似于我们如何解释概率回归中的系数潜在正态变量的平均偏移和/或阈值的偏移.