将负相关非线性变量转换为线性正相关变量

数据挖掘 回归 共线性 皮尔逊相关系数
2022-02-20 19:13:00

在我的办公室里,我陷入了一个奇怪的境地。我被要求对数据执行回归算法,其中目标变量是连续的,其值范围在 0.6 到 0.9 之间,小数点后有 8 位精度。虽然我知道并在过去应用了许多线性和非线性回归算法,但这里的情况有所不同。有一个变量,根据我的 BU,它应该与目标变量呈正相关和线性相关。但是当我运行Pearson's相关性时,变量是负相关的,并且通过绘制scatter情节我可以看到这种关系根本不是线性的。我可以对变量执行哪些转换以使其显示正相关?我对这个问题相当陌生,所以希望在这里解决它。非常感谢大家提前。

2个回答

什么是BU?事业单位?

你能告诉我关于变量和目标变量的任何事情吗?你能包括散点图吗?

目前尚不清楚问题是否不在领域知识/假设中。

一个商业例子:利润取决于销售额,这通常被认为是正相关的。但是在阈值边际销售成本超过利润(获取新客户非常昂贵)之后,我们仍然可以存在(本地)负相关。如果您只有“边际”部分的数据,您可能会得出错误的结论。

听起来特征和目标之间可能存在(即非线性)复杂关系。如果业务单元 (BU) 要求特征和目标之间存在正线性关系,可以尝试分段回归可能有一系列特征值显示业务所需的关系。