我有一些关于人们申请服务的数据——他们的申请要么成功,要么不成功。我正在使用逻辑回归来调查成功与某些人口统计变量(例如性别、种族)之间是否存在关系。
可以访问此服务的人数有上限。所以每个申请都不是独立的——一个特定的人是否成功可能取决于还有谁申请。
鉴于应用程序不是独立的,我使用逻辑回归是否合适?
我有一些关于人们申请服务的数据——他们的申请要么成功,要么不成功。我正在使用逻辑回归来调查成功与某些人口统计变量(例如性别、种族)之间是否存在关系。
可以访问此服务的人数有上限。所以每个申请都不是独立的——一个特定的人是否成功可能取决于还有谁申请。
鉴于应用程序不是独立的,我使用逻辑回归是否合适?
一般来说,这是不合适的。
剩下的问题是,您的应用程序中的实际影响是否与您的用例相关。为了评估这一点,您可以例如扰乱训练集中的应用程序(让人们在与最初不同的组中应用程序)并检查这如何影响您的测试错误。根据影响,您可以决定是否可以接受。
如果不可接受,您可能应该重组问题。
正如现有答案所述,在这种情况下使用逻辑回归原则上是不合适的。可能你仍然会得到不错的结果,但我会采用不同的方法。
如果您研究大学/学院录取的统计模型,我假设您会找到有关该主题的大量文献。
一个想法如下:假设有某种隐含的“资格分数”是由那些选择人员形成的。让我们假设它是一个连续的数字(例如,对于大学入学来说,某种学术能力得分加上课外活动的奖励积分)并且每个人获得的分数都是不变的,具体取决于其他申请者(即假设没有尝试获得具有特定背景的人数以任何其他方式平衡,而不是在总分上给某些群体加分)。在这种情况下,您可以将其视为观察到成功的申请人比不成功的申请人具有更高的资格分数。然而,