这里有几个问题。
通常,我们希望确定最小样本量,以达到最低可接受的统计功效水平。所需的样本量是几个因素的函数,主要是您希望能够与 0(或您使用的任何空值,但 0 是最常见的)区分开来的效果的大小,以及您捕捉到该效果的最小概率想要有。从这个角度来看,样本量由功效分析确定。
另一个考虑因素是模型的稳定性(如@cbeleites 所述)。基本上,随着估计的参数与数据数量的比率接近 1,您的模型将变得饱和,并且必然会过度拟合(除非系统中实际上没有随机性)。1比10的经验法则来自这个角度。请注意,拥有足够的权力通常会为您解决这个问题,但反之则不然。
然而,1 到 10 规则来自线性回归世界,重要的是要认识到逻辑回归具有额外的复杂性。一个问题是逻辑回归在 1 和 0 的百分比约为 50% / 50% 时效果最佳(正如@andrea 和 @psj 在上面的评论中讨论的那样)。另一个需要关注的问题是分离。也就是说,您不希望所有的 1 都集中在自变量的一个极端(或它们的某种组合)上,而所有的 0 都集中在另一个极端。虽然这看起来是一个很好的情况,因为它会使完美的预测变得容易,但它实际上使参数估计过程崩溃了。(@Scortchi 在这里对如何处理逻辑回归中的分离进行了很好的讨论:如何处理逻辑回归中的完美分离?) 使用更多的 IV,这变得更有可能,即使效果的真实幅度保持不变,尤其是在您的反应不平衡的情况下。因此,每个 IV 很容易需要超过 10 个数据。
该经验法则的最后一个问题是它假设您的 IV 是正交的。这对于设计的实验是合理的,但是对于像你这样的观察性研究,你的 IV 几乎永远不会大致正交。有处理这种情况的策略(例如,合并或删除 IV,首先进行主成分分析等),但如果不解决(这很常见),您将需要更多数据。
那么一个合理的问题是,您的最小 N 应该是多少,和/或您的样本量是否足够?为了解决这个问题,我建议你使用@cbeleites 讨论的方法;依靠 1 到 10 规则是不够的。