我们目前正在为一项研究收集数据,该研究的目的是显示科学家是否随着时间的推移或多或少地关注特定主题。为了保护隐私,假设主题是果冻豆:我们审查了一千项随机研究,并检查了它们是否与果冻豆有关。数据集只有两列,看起来像:
| JellyBeans | Year |
|------------|------|
| YES | 2010 |
| NO | 2001 |
| NO | 2010 |
| NO | 2015 |
| YES | 2009 |
| NO | 2016 |
| ... | .... |
| YES | 1999 |
我们考虑使用逻辑回归来达到目的,因为 DV 是分类的。在 R 中,这看起来像:
logreg_jelly_year = glm(JellyBeans ~ Year, family = "binomial", data = dataset)
然而,我们对程序的有效性有一些疑问,特别是:
- 是否有任何我们必须检查的特定假设可能会危及该程序的科学价值?
Year不是真正连续的事实是一个问题吗?- 是否有任何其他测试或程序我们应该在上面运行或代替逻辑回归?