测量分类变量与连续变量的相关性

数据挖掘 Python r 回归 相关性
2022-02-11 14:52:08

给定一个依赖于连续变量的分类变量,我想知道如何检查这些连续变量是否解释了分类变量。

所以:

Y = cagetorical 
X1 = continous 
X2 = continous
X3 = continous

我将从相关性开始,但哪个?我已经看到如何获得两个分类变量与分类变量和连续变量之间的相关性?但是在那里解释了解释连续变量的分类变量是否存在差异,所以我认为这是另一个话题?

我对 R 和 python 中的工具建议也很好。

编辑:我不确定这里的分类是否正确。值为但我也可以使用它们代表了房间清洁度度量的分类。Y0,1,2,3A,B,C,D

2个回答

通过说你想“用 X 解释 Y”,听起来你试图构建一个分类器 F,它可以将 X 值映射到预期的 Y:F(X) --> Y。如果是这样,你不必搜索“相关性”必然。有多种方法可以构建这样的分类器。你可以使用逻辑回归\SVM\神经网络\等。

此外,如果它对您更有意义,您总是可以首先将连续变量离散化为分类变量,而不是使用其他方法,例如决策树\朴素贝叶斯等。

所以你想解释 1-n 序数变量 X 对一个区间/连续变量 Y 的影响。最好的方法是什么?

相关性

即使其中一个变量是连续的,Spearman 秩相关是涉及序数变量的相关性的正确方法。但是,一些消息来源确实建议您可以尝试将连续变量编码为序数本身(通过分箱-> 例如0-100编码为的变量0-25,26-50,51-75,76-100)并将其包含到相关性中,这也是一种有效的方法。

回归

在大多数回归模型中,我们可以将序数变量视为连续变量,并且可能没问题。与您的问题的相关性相比,回归模型具有几个关键优势。他们可以处理多个预测变量并确定影响的大小。

你总是要做的事

要处理相关或回归中的序数变量,您总是必须对它们进行标记编码,这意味着A,B,C,D变为0,1,2,3.