我试图找到二分变量和连续变量之间的相关性。
从我的基础工作中,我发现我必须使用独立的 t 检验,其前提是变量的分布必须是正态的。
我进行了 Kolmogorov-Smirnov 检验来测试正态性,发现连续变量是非正态的并且是偏斜的(大约 4,000 个数据点)。
我对整个变量范围进行了 Kolmogorov-Smirnov 检验。我应该将他们分组并进行测试吗?即,假设我有risk level
(0
= 没有风险,1
= 有风险)和胆固醇水平,那么我应该:
将它们分成两组,例如
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
将它们放在一起并进行测试?(我只在整个数据集上执行它。)
之后,如果仍然不正常,我应该做什么检查?
编辑: 上述情况只是我试图为我的问题提供的描述。我有一个包含 1000 多个变量和大约 4000 个样本的数据集。它们本质上是连续的或分类的。我的任务是根据这些变量预测一个二分变量(也许想出一个逻辑回归模型)。所以我认为初步调查将涉及找到二分变量和连续变量之间的相关性。
我试图查看变量的分布情况,因此尝试进行 t 检验。在这里,我发现常态是一个问题。Kolmogorov-Smirnov 检验在大多数这些变量中给出的显着性值为 0.00。
我应该在这里假设正常吗?这些变量的偏度和峰度也表明数据在几乎所有情况下都是偏斜的 (>0)。
根据下面给出的注释,我将进一步研究点双序列相关性。但是关于变量的分布我仍然不确定。