我可以在逻辑回归中使用与因变量具有非线性关系的变量吗?

机器算法验证 回归 估计 物流 sas
2022-03-28 05:31:34

假设我正在构建一个逻辑回归模型,其中因变量是二进制的并且可以取值0或者1. 让自变量为x1,x2,...,xm- 有m自变量。让我们说kth 自变量,双变量分析显示出 U 形趋势 - 即,如果我分组xk进入20每个包含大致相等数量的观察值的箱,并计算每个箱的“不良率” - # 观察,其中 y = 0 / 每个箱中的总观察 - 然后我得到一条 U 形曲线。

我的问题是:

  1. 可以直接用吗xk作为估计 beta 参数时的输入?是否违反了任何可能导致估计参数时出现重大错误的统计假设?
  2. 是否有必要通过转换(对数、平方、乘积等)来“线性化”这个变量?
3个回答

您可能希望使用能够自动捕获非线性的灵活公式,例如,某个版本的广义加法模型穷人的选择是多项式xk,xk2, ...,xkpk, 但是这样的多项式在它们各自变量范围的末端会产生可怕的过摆。更好的公式是使用(三次)B 样条曲线(请参阅此处 Google 第一页的随机介绍说明,以及此处的一本好书)。B样条是一系列局部驼峰:

http://ars.sciencedirect.com/content/image/1-s2.0-S0169743911002292-gr2.jpg

驼峰的高度由您的(线性、逻辑、其他 GLM)回归确定,因为您要拟合的函数很简单

θ=β0+k=1KβkB(xxkhk)

对于您的驼峰的指定功能形式B(). 到目前为止,最流行的版本是钟形平滑三次样条:

B(z)={14(z+2)3,2z114(3|x|36x2+4),1<x<114(2x)3,1x20,otherwise

在实施方面,您需要做的就是设置 3-5-10-任意数量的结xk对您的应用程序来说是合理的,并在数据集中创建相应的 3-5-10-whatever 变量,其值为B(xxkhk). 通常,选择一个简单的值网格,其中hk是网格网格大小的两倍,因此在每个点上都有两条重叠的 B 样条,如上图所示。

就像线性回归一样,逻辑回归和更一般的广义线性模型需要在参数中是线性的,但不一定在协变量中。因此,可以使用 Macro 建议的多项式项,例如二次项。这是广义线性模型中对线性项的常见误解。非线性模型是参数非线性的模型。如果模型在参数中是线性的并且包含 IID 的加性噪声​​项,则即使存在像 X 这样的协变量,模型也是线性的2记录 X 或 exp(X)。当我现在阅读问题时,它似乎已被编辑。我对 1 的具体回答是肯定的,对 2 没有必要。

我工作的建模车间经常使用的另一个可行的替代方法是对连续自变量进行分箱并替换“不良率”。这迫使线性关系。