机器算法验证 - 逻辑回归中组间样本量的不平衡分布：应该担心吗？ - 吾爱随笔录

我需要将逻辑回归模型拟合到一个数据集，其中感染（存在/不存在）是我的因变量和邻域（三个因素：富、差、非常差）我的自变量。

根据一位（如我）不精通统计数据的评论者所说，我的数据的一个潜在问题是变量邻域的每个因素的样本量分布非常不均匀，例如：

Rich = 853  
Poor = 100  
Very poor = 131

审稿人建议随机对“富”组进行子集化以获得大约 100 个样本的样本，然后满足这一所谓的假设，即同一变量内的组之间样本量大致相等。

由于我们研究背后的假设，我需要将“富有”设置为参考类别，以此来比较其余两个。

审稿人的建议成立吗？AFAIK，如果自变量的两个类别不平衡甚至稀疏，则逻辑回归中没有任何违反假设，即使它是因变量也没有违反假设。