二分变量和连续变量之间的相关性

机器算法验证 正态分布 分类数据 连续数据 kolmogorov-smirnov 测试 关联度量
2022-02-28 01:00:20

我试图找到二分变量和连续变量之间的相关性。

从我的基础工作中,我发现我必须使用独立的 t 检验,其前提是变量的分布必须是正态的。

我进行了 Kolmogorov-Smirnov 检验来测试正态性,发现连续变量是非正态的并且是偏斜的(大约 4,000 个数据点)。

我对整个变量范围进行了 Kolmogorov-Smirnov 检验。我应该将他们分组并进行测试吗?即,假设我有risk level0= 没有风险,1= 有风险)和胆固醇水平,那么我应该:

  • 将它们分成两组,例如

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • 将它们放在一起并进行测试?(我只在整个数据集上执行它。)

之后,如果仍然不正常,我应该做什么检查?

编辑: 上述情况只是我试图为我的问题提供的描述。我有一个包含 1000 多个变量和大约 4000 个样本的数据集。它们本质上是连续的或分类的。我的任务是根据这些变量预测一个二分变量(也许想出一个逻辑回归模型)。所以我认为初步调查将涉及找到二分变量和连续变量之间的相关性。

我试图查看变量的分布情况,因此尝试进行 t 检验。在这里,我发现常态是一个问题。Kolmogorov-Smirnov 检验在大多数这些变量中给出的显着性值为 0.00。

我应该在这里假设正常吗?这些变量的偏度和峰度也表明数据在几乎所有情况下都是偏斜的 (>0)。

根据下面给出的注释,我将进一步研究点双序列相关性。但是关于变量的分布我仍然不确定。

2个回答

我有点困惑; 您的标题说“相关性”,但您的帖子指的是 t 检验。t 检验是对中心位置的检验——更具体地说,一组数据的平均值是否不同于另一组数据的平均值?另一方面,相关性显示了两个变量之间的关系。有多种相关性措施,似乎点双列相关性适合您的情况。

您认为 t 检验假设正态性是正确的;但是,即使对于 N 为 4000 的琐碎非正态性,正态性检验也可能给出显着的结果。如果两组数据的方差大致相等且样本的方差与正态性的适度偏差,T 检验相当稳健大小大致相等。但是,非参数检验对异常值更稳健,并且它们中的大多数具有几乎与 t 检验一样高的功效,即使分布是正态的。

但是,在您的示例中,您使用“胆固醇”作为有风险或无风险。这几乎可以肯定是个坏主意。对连续变量进行二分法会引发神奇的思考。它说,在某些时候,胆固醇会从“无风险”变为“有风险”。假设您使用 200 作为截止值 - 那么您是说胆固醇为 201 的人就像是 400 的人,而胆固醇为 199 的人就像是 100 的人。这没有意义。

让我们简化一下。对于胆固醇水平 N = 4,000,您的结果应该不会受到异常值的影响。因此,您可以使用相关性本身,正如您的初始句子所暗示的那样。是否通过 Pearson、Spearman 或 Point-Biserial 方法评估相关性几乎没有什么区别。

相反,如果您确实需要根据高风险和低风险组之间的典型胆固醇差异来表述结果,则可以使用 Mann-Whitney U 检验,但您也可以使用信息更丰富的t检验。有了这个 N(同样,对于天文异常值,您无疑可以排除),您不必担心缺乏正态性会影响您的结果。

其它你可能感兴趣的问题