如何在不对预测变量进行分类的情况下证明非线性?

机器算法验证 回归 分类数据 数据可视化 非线性回归 连续数据
2022-03-28 21:02:36

我不知道我的问题的合适术语是什么。该场景描述如下。

在分析中有一个因变量 Y 和两个自变量 X1 和 X2。

所有三个变量都是连续的。

我将X1转换成一个分类变量,分为A、B、C三个水平。发现Y和X2在A组和B组呈正相关,而在C组呈负相关。

有人告诉我,将连续变量转换为分类变量通常是个坏主意,我理解这一点。我的问题是,如何在不将 X1 分类的情况下演示上述模式?有人建议我使用多元回归,但我仍然不知道如何用多元回归证明三个变量中的这种关系。

2个回答

将连续变量转换为分类变量可能不是一个好主意,但也可能是个好主意,这取决于问题。当可以使用阈值最好地描述变量的关系时,分类可能是最好的选择之一。

您写道,在 X1 的不同类别中,Y 和 X2 之间的相关性非常不同。这清楚地表明了 Y、X1 和 X2 之间的非线性关系。因此,多元线性回归可能不是在这里使用的最佳方法。

无论如何,我建议您可视化您的数据(可能使用圆形图彩色散点图)。您可以继续使用适合您对数据了解的机器学习或建模方法。

您可以拟合一个广义加法模型 (GAM),它可以很容易地发现非线性协变量效应。

在 R 中,您可以使用gamormgcv包。

是规范参考