基于目标分布的分类变量之间的相关性
数据挖掘
特征工程
预处理
分类数据
相关性
2022-03-10 14:10:07
3个回答
你的答案是(卡方)独立性检验。
首先,我们必须计算两个名义变量的期望值。我们可以使用以下公式计算两个名义变量的期望值:
在哪里,
= 单元格的期望值,
= 第 i 列的总和
= 第 k 行的总和
= 总数
计算出期望值后,我们将应用以下公式来计算卡方独立性检验的值:
: 卡方独立性检验
= 两个名义变量的观测值
= 两个名义变量的期望值
自由度使用以下公式计算:
其中,DF = 自由度 r = 行数 c = 列数
假设:
零假设:假设两个变量之间没有关联。
备择假设:假设两个变量之间存在关联。
假设检验:独立性卡方检验的假设检验,就像其他检验(如 ANOVA)一样,其中计算检验统计量并与临界值进行比较。卡方统计量的临界值由显着性水平(通常为 0.05)和自由度决定。卡方的自由度使用以下公式计算: df = (r-1)(c-1) 其中 r 是行数,c 是列数。如果观察到的卡方检验统计量大于临界值,则可以拒绝原假设。
除了两个很好的答案,这里是一个非统计测试选项:Bhattacharyya distance
利用胡安的答案,您还可以使用 Kolmogorov-Smirnov-Test 来测试两个变量是否来自同一分布。
正如 Bruce Mitchell (1971) - “卡方检验和 Kolmogorov-Smirnov 检验的比较”所概述的,如果不能满足所有要求并且在其应用中趋于更灵活,可以使用 KS 检验代替卡方检验.
其它你可能感兴趣的问题
