机器算法验证 - 逻辑回归中罕见事件的后果是什么？ - 吾爱随笔录

逻辑回归中罕见事件的后果是什么？

机器算法验证物流假设罕见事件

2022-03-24 11:45:54

我知道样本量会影响任何统计方法的功效。对于每个预测变量，回归需要多少样本，有一些规则。

我还经常听到，逻辑回归的因变量中每个类别的样本数量很重要。为什么是这样？

当某一类别中的样本数量很少（罕见事件）时，逻辑回归模型的实际后果是什么？

是否存在包含预测变量数量和因变量每个级别中的样本数量的经验法则？

1个回答

线性(OLS) 回归的标准经验法则是您至少需要 $10$ 每个变量的数据，否则您将“接近”饱和度。但是，对于逻辑回归，相应的经验法则是您想要 $15$ 每个变量 的不太常见的类别的数据。

这里的问题是二进制数据不包含与连续数据一样多的信息。此外，如果你只有几个实际事件，你可以用大量数据做出完美的预测。举一个相当极端但应该立即清楚的例子，考虑一个你有 $N = 300$ ，所以试图拟合一个模型 $30$ 预测器，但只有 $3$ 事件。你甚至无法估计你的大多数人之间的关联 $X$ -variables and $Y$ .

其它你可能感兴趣的问题

上一篇随机森林和极端随机树的分裂方式有何不同？下一篇理解和解释字母值箱线图