我正在尝试处理逻辑回归中过度分散的概念。我读过过度分散是指观察到的响应变量的方差大于二项式分布的预期方差。
但是如果一个二项式变量只能有两个值(1/0),它怎么会有均值和方差呢?
我可以从 x 次伯努利试验中计算成功的均值和方差。但是我无法理解只能有两个值的变量的均值和方差的概念。
谁能提供一个直观的概述:
- 只能有两个值的变量的均值和方差的概念
- 只能有两个值的变量中的过度离散的概念
我正在尝试处理逻辑回归中过度分散的概念。我读过过度分散是指观察到的响应变量的方差大于二项式分布的预期方差。
但是如果一个二项式变量只能有两个值(1/0),它怎么会有均值和方差呢?
我可以从 x 次伯努利试验中计算成功的均值和方差。但是我无法理解只能有两个值的变量的均值和方差的概念。
谁能提供一个直观的概述:
具有次试验和成功概率的二项式随机变量可以取两个以上的值。二项式随机变量表示在这次试验中的成功次数,实际上可以取不同的值()。因此,如果该分布的方差大于二项式假设下的预期(例如,可能存在过多的零),则属于过度分散的情况。
) ,过度分散没有意义
在逻辑回归曲线的上下文中,您可以将“小切片”或分组,通过窄范围的预测值视为二项式实验的实现(也许我们在切片中有 10 个点,具有一定数量的成功与失败)。尽管我们并没有真正对每个预测变量值进行多次试验,并且我们正在查看比例而不是原始计数,但我们仍然希望这些“切片”中的每一个的比例接近曲线。如果这些“切片”有远离曲线的趋势,则分布的可变性太大。因此,通过对观察结果进行分组,您可以创建二项式随机变量的实现,而不是单独查看 0/1 数据。
下面的示例来自该站点上的另一个问题。假设蓝线代表预测变量范围内的预期比例。蓝色单元格表示观察到的实例(在本例中为学校)。这提供了过度分散可能看起来如何的图形表示。请注意,解释下图中的单元存在缺陷,但它提供了过度分散如何表现出来的想法。
正如其他人已经指出的那样,过度分散不适用于伯努利 (0/1) 变量的情况,因为在这种情况下,均值必然决定方差。在逻辑回归的上下文中,这意味着如果您的结果是二元的,则您无法估计分散参数。(注意这并不意味着您可以仅仅因为您的结果是二元的而忽略观察之间的潜在相关性!)
另一方面,如果您的结果是一组比例,那么您可以通过除以 Pearson 卡方统计量(或偏差) 由剩余自由度决定。
请记住,具有纯二元结果的逻辑回归只是更一般的逻辑回归模型的一个特例,其中二项式指数可以超过一个(并且可以随观察而变化)。因此,您是否拟合逻辑回归模型的问题与您的数据是否过度分散的问题无关。