逻辑回归可以与“年”一起用作连续变量吗?

机器算法验证 r 回归 物流 分类数据
2022-04-08 00:14:52

我们目前正在为一项研究收集数据,该研究的目的是显示科学家是否随着时间的推移或多或少地关注特定主题。为了保护隐私,假设主题是果冻豆:我们审查了一千项随机研究,并检查了它们是否与果冻豆有关。数据集只有两列,看起来像:

| JellyBeans | Year |
|------------|------|
|    YES     | 2010 |
|    NO      | 2001 |
|    NO      | 2010 |
|    NO      | 2015 |
|    YES     | 2009 |
|    NO      | 2016 |
|    ...     | .... |
|    YES     | 1999 |

我们考虑使用逻辑回归来达到目的,因为 DV 是分类的。在 R 中,这看起来像:

logreg_jelly_year = glm(JellyBeans ~ Year, family = "binomial", data = dataset)

然而,我们对程序的有效性有一些疑问,特别是:

  1. 是否有任何我们必须检查的特定假设可能会危及该程序的科学价值?
  2. Year不是真正连续的事实是一个问题吗?
  3. 是否有任何其他测试或程序我们应该在上面运行或代替逻辑回归?
1个回答

是的,您可以在模型中使用年作为连续变量。但是,我不会为这个问题估计一个 logit 模型。一些具体问题:

  • 此处显示数据的方式是绘图,其中 x 轴显示年份,y 轴显示果冻豆的比例。估计一个 logit 模型来做到这一点会带来你犯错误的风险,但在解释方面没有任何好处。
  • 如果您迫切需要计算p值,最好使用 Kendall 的 tau-b,因为这样您就无需担心任何假设。
  • 如果该图揭示了非线性关系,我想您可以使用具有多项式效应的 logit 模型,例如,使用JellyBeans ~ poly(Year, 3)类似的东西以及模型显着性的似然比检验。