逻辑回归中组间样本量的不平衡分布:应该担心吗?

机器算法验证 回归 物流 广义线性模型 样本量 不平衡类
2022-04-05 20:29:33

我需要将逻辑回归模型拟合到一个数据集,其中感染(存在/不存在)是我的因变量和邻域(三个因素:富、差、非常差)我的自变量。

根据一位(如我)不精通统计数据的评论者所说,我的数据的一个潜在问题是变量邻域的每个因素的样本量分布非常不均匀,例如:

Rich = 853  
Poor = 100  
Very poor = 131

审稿人建议随机对“富”组进行子集化以获得大约 100 个样本的样本,然后满足这一所谓的假设,即同一变量内的组之间样本量大致相等。

由于我们研究背后的假设,我需要将“富有”设置为参考类别,以此来比较其余两个。

审稿人的建议成立吗?AFAIK,如果自变量的两个类别不平衡甚至稀疏,则逻辑回归中没有任何违反假设,即使它是因变量也没有违反假设。

1个回答

你是对的,逻辑回归不对自变量的分布做出任何假设。由于您的情况,您将拥有 s相等时更少的权力。但是,减少组中只会进一步降低您的力量。相反,这个想法是,如果您的总相同,但均分,您将拥有更多的权力。尽管是在不同的上下文(t-tests)中编写的,但您可以从我的回答中得到大致的想法:应该如何解释不同样本量的均值比较?nnRichN