逻辑回归中罕见事件的后果是什么?

机器算法验证 物流 假设 罕见事件
2022-03-24 11:45:54

我知道样本量会影响任何统计方法的功效。对于每个预测变量,回归需要多少样本,有一些规则。

我还经常听到,逻辑回归的因变量中每个类别的样本数量很重要。为什么是这样?

当某一类别中的样本数量很少(罕见事件)时,逻辑回归模型的实际后果是什么?

是否存在包含预测变量数量和因变量每个级别中的样本数量的经验法则?

1个回答

线性(OLS) 回归的标准经验法则是您至少需要10每个变量的数据,否则您将“接近”饱和度但是,对于逻辑回归,相应的经验法则是您想要15每个变量 的不太常见的类别的数据。

这里的问题是二进制数据不包含与连续数据一样多的信息。此外,如果你只有几个实际事件,你可以用大量数据做出完美的预测。举一个相当极端但应该立即清楚的例子,考虑一个你有N=300,所以试图拟合一个模型30预测器,但只有3事件。你甚至无法估计你的大多数人之间的关联X-variables and Y.