逻辑回归的样本量?

机器算法验证 物流 样本量 假设 统计能力 不平衡类
2022-02-14 22:28:21

我想根据我的调查数据制作一个逻辑模型。这是对四个居住区的小型调查,其中只有 154 名受访者接受了采访。我的因变量是“令人满意的工作过渡”。我发现,在 154 名受访者中,有 73 人表示他们已令人满意地过渡到工作岗位,而其他人则没有。所以因变量本质上是二元的,我决定使用逻辑回归。我有七个自变量(三个连续变量和四个名义变量)。一项指南建议每个预测变量/自变量应该有 10 个案例(Agresti,2007)。基于这个指南,我觉得运行逻辑回归是可以的。

我对吗?如果不是,请告诉我如何确定自变量的数量?

4个回答

这里有几个问题。

通常,我们希望确定最小样本量,以达到最低可接受的统计功效水平。所需的样本量是几个因素的函数,主要是您希望能够与 0(或您使用的任何空值,但 0 是最常见的)区分开来的效果的大小,以及您捕捉到该效果的最小概率想要有。从这个角度来看,样本量由功效分析确定。

另一个考虑因素是模型的稳定性(如@cbeleites 所述)。基本上,随着估计的参数与数据数量的比率接近 1,您的模型将变得饱和,并且必然会过度拟合除非系统中实际上没有随机性)。1比10的经验法则来自这个角度。请注意,拥有足够的权力通常会为您解决这个问题,但反之则不然。

然而,1 到 10 规则来自线性回归世界,重要的是要认识到逻辑回归具有额外的复杂性。一个问题是逻辑回归在 1 和 0 的百分比约为 50% / 50% 时效果最佳(正如@andrea 和 @psj 在上面的评论中讨论的那样)。另一个需要关注的问题是分离也就是说,您不希望所有的 1 都集中在自变量的一个极端(或它们的某种组合)上,而所有的 0 都集中在另一个极端。虽然这看起来是一个很好的情况,因为它会使完美的预测变得容易,但它实际上使参数估计过程崩溃了。(@Scortchi 在这里对如何处理逻辑回归中的分离进行了很好的讨论:如何处理逻辑回归中的完美分离?) 使用更多的 IV,这变得更有可能,即使效果的真实幅度保持不变,尤其是在您的反应不平衡的情况下。因此,每个 IV 很容易需要超过 10 个数据。

该经验法则的最后一个问题是它假设您的 IV 是正交的。这对于设计的实验是合理的,但是对于像你这样的观察性研究,你的 IV 几乎永远不会大致正交。有处理这种情况的策略(例如,合并或删除 IV,首先进行主成分分析等),但如果不解决(这很常见),您将需要更多数据。

那么一个合理的问题是,您的最小 N 应该是多少,和/或您的样本量是否足够?为了解决这个问题,我建议你使用@cbeleites 讨论的方法;依靠 1 到 10 规则是不够的。

我通常使用 15:1 规则(最小(事件,非事件)与模型中候选参数数量的比率)。 最近的工作发现,为了进行更严格的验证,需要 20:1。更多信息可以在我从http://hbiostat.org/rms链接的课程讲义中找到,特别是为了估计截距而最小样本量为 96 的论点。但是样本量要求更加细微,最近的一篇论文更全面地解决了这个问题。

通常情况下,案例太少了。模型复杂度(参数数量)意味着模型不稳定因此,如果您想知道您的样本量/模型复杂度是否还可以,请检查您是否获得了合理稳定的模型。

有(至少)两种不同的不稳定性:

  1. 模型参数变化很大,训练数据只有很小的变化

  2. 在训练数据稍有变化的情况下训练的模型预测(对于相同的情况)差异很大。

如果训练数据受到轻微扰动,您可以通过查看模型系数的变化量来衡量 1。可以计算一组合适的模型,例如在引导或(迭代)交叉验证过程中。

对于某些类型的模型或问题,不同的参数并不意味着不同的预测。您可以直接检查不稳定性 2. 通过查看在自举或迭代交叉验证期间计算的同一案例的预测变化(无论它们是否正确)。

这是 MedCalc 网站 user41466 写的实际答案

http://www.medcalc.org/manual/logistic_regression.php

样本量注意事项

逻辑回归的样本量计算是一个复杂的问题,但基于 Peduzzi 等人的工作。(1996) 可以建议以下指南,以包含在您的研究中的最少病例数。设 p 是总体中阴性或阳性病例的比例中的最小值,k 是协变量的数量(自变量的数量),那么要包含的最小病例数为:N = 10 k / p 例如:您模型中包含 3 个协变量,阳性病例在总体中的比例为 0.20 (20%)。所需的最小案例数为 N = 10 x 3 / 0.20 = 150 如果结果数小于 100,则应按照 Long (1997) 的建议将其增加到 100。

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) 对逻辑回归分析中每个变量的事件数量的模拟研究。临床流行病学杂志四十九:1373-1379。