分类变量与回归之间的关联

数据挖掘 回归 数据 分类数据 皮尔逊相关系数
2022-03-10 14:47:35

我们进行数据分析并建立模型。比如说,我建立了一个回归模型,它有多个预测变量(多元回归)。然后我们检查很多东西:正态性、多重共线性等。具体来说,我们检查多重共线性、数值/连续变量、VIF(方差膨胀因子)等。如果我们发现存在多重共线性,我们就删除一个高度相关的特征。

我的问题是:分类变量可以做什么?我的意思是如果两个分类变量是相关/关联的,这是否意味着我必须放弃它?我不清楚如何处理分类变量,就像我们处理连续变量之间的相关性一样。

我们所说的两个因素变量是相关的、相关的还是独立的是什么意思?如果存在共线性怎么办?你如何识别这种共线性?你如何解决?

1个回答

分类变量之间的相关性可以用Spearman 等级相关系数来计算。如果 Spearman 的等级相关性足够高,则可以删除变量。