我们可以在回归和逻辑回归中使用有界连续变量作为预测变量吗?

机器算法验证 回归 物流
2022-03-17 03:14:36

我目前正在研究一个化学信息学问题,我正在研究化学结构和反应性之间的关系,例如两个分子相互接近的角度如何影响后续反应的速率。显然,角度只能在 0° 和 360° 之间变化。

这是一个谨慎的非统计学家提出的“快速检查”问题。我知道在回归分析中,因变量必须是连续且无界的。我只是想知道 - 回归中的连续预测变量也需要无界吗?本能地我认为不是。

2个回答

变量必须是“连续且无界”的条件是不寻常的:两者都没有数学或统计要求。

在大多数回归模型中,我们假设因变量是自变量加上零均值的独立随机误差项的线性组合,大约在自变量达到或可能达到的范围内 例如,可以按时回归 1700 - 1850 年期间密西西比河的长度,但不要将回归预测回溯,例如,一百万年或向前 700 年:

在一百七十六年的时间里,下密西西比河已经缩短了两百四十二英里。这是平均每年一英里和三分之一的小事。因此,任何冷静的人,不瞎也不傻,都可以看到,在古鲕粒志留纪时期,也就是一百万年前的次年十一月,密西西比河下游长达一百万三十万里,突出了墨西哥湾就像一根钓鱼竿。同样的道理,任何人都可以看到,七百四十二年后,密西西比河下游将只有一英里四分之三长,开罗和新奥尔良将汇入他们的街道,舒适地前行在一个市长和一个共同的市议员委员会下。科学有一些令人着迷的东西。

(马克吐温,密西西比河上的生活。)

在目前的情况下,听起来角度是一个变量,而不是因变量,所以这个问题甚至没有出现。出现的问题是角度似乎只定义了模 360 度(实际上是模 180)。实际上,角度实际上是一个纬度,从 0 到 180(或 -90 到 90)变化,根本没有“环绕”。那么,真正重要的是如何最好地表达这个角度:反应速率是随角度线性变化,还是随角度的正弦或余弦变化?或者它的切线无界的?但是这个问题可以通过适当的探索性分析来解决,也许是通过一些立体化学的考虑,以及拟合和检查模型的标准程序。所以这个角度变量既不享有也不遭受任何将其与其他自变量区分开来的特殊性质。

关于标题中的问题 使用逻辑回归预测后验概率,变量(结果)既是有界的又是连续的。

实际上,实现逻辑回归的一种思路是考虑如何构建一个具有连续结果限制的回归。

  1. 您想例如直接对概率进行回归
  2. “常见”回归方法(例如线性回归)为您提供实数集中的连续输出。R
  3. 但概率在 [0, 1]
  4. 所以在你的模型中加入一个 sigmoid 变换来变换R[0,1]
  5. 如果您选择逻辑函数11+ex(sigmoid 的标准选择),您最终会得到逻辑回归。

关于一般的建模角度,我想跟进另一个问题:如何对循环行为进行建模,我如何告诉模型 359° 与 0° 几乎相同(无论变量是相关的还是独立的)?