(非二分)名义变量与数值(区间)或序数变量之间的相关系数

机器算法验证 相关性 matlab 序数数据 分类数据 连续数据
2022-01-31 02:36:04

我已经阅读了该站点中的所有页面,试图找到我的问题的答案,但似乎没有人适合我……

首先,我向您解释我正在使用的数据类型......

假设我有一个数组向量,其中包含多个城市名称,300 个用户每人一个。我还有另一个数组向量,其中包含对每个用户的调查的分数响应或每个用户的连续值。

我想知道是否存在计算这两个变量之间相关性的相关系数,因此,在名义变量和数字/连续或有序变量之间。

我在互联网上搜索过,在某些页面中,他们建议使用 contingency coefficient 或 Cramer's V 或 Lambda 系数或 Eta 。对于每一个测量值,只要说它们可以应用于我们有名义变量和区间或数值变量的数据。问题是搜索和搜索,试图理解它们中的每一个,有时会写或看例子,如果你有二分名义变量,它们是合理的,除了Cramer's V,其他时候没有写任何要求数据的类型。许多其他页面说应用回归是正确的,这是正确的,但我只是想知道这种数据是否存在像 pearson/spearman 这样的系数。

我也认为使用 Spearman Correlation coeff 不太合适,因为城市不可排序。

我还自己构建了 Cramer'sV 和 Eta 的函数(我正在使用 Matlab)但是对于 Eta,他们没有谈论任何 p 值来查看系数是否具有统计显着性......

在 matlabWorks 站点中,还有一个不错的工具箱,上面写着要计算 eta^2,但它需要的输入类型是无法理解的。

这里有像我一样做过测试的人吗?如果您需要更多详细信息来了解我正在使用的数据类型,请询问我,我会尽力为您解释得更好。

2个回答

标称与区间

名义变量和区间(“数值”)变量之间最经典的“相关”度量是Eta,也称为相关比,等于单向 ANOVA 的 R 平方根(p 值 =方差分析)。Eta 可以看作是一种对称关联度量,就像相关性一样,因为 ANOVA 的 Eta(名义上是独立的,数值是相关的)等于 Pillai 的多元回归轨迹(数值是独立的,一组虚拟变量对应于名义上的依赖)。

一个更微妙的衡量标准是类内相关系数(ICC)。相对于数值变量,Eta 仅掌握组之间的差异(由名义变量定义),而 ICC 同时还测量组内数值之间的协调性或一致性;换句话说,ICC(尤其是原始的无偏“配对”ICC 版本)停留在值的水平上,而 Eta 在统计水平上运行(组均值与组方差)。

标称与序数

关于名义变量和有序变量之间的“相关性”度量的问题不太明显。困难的原因是,就其性质而言,序数尺度比间隔或名义尺度更“神秘”或“扭曲”。难怪到目前为止,专门针对序数数据的统计分析的表述相对较差。

一种方法可能是将您的序数数据转换为等级,然后计算Eta,就好像等级是区间数据一样。这种 Eta 的 p 值 = Kruskal-Wallis 分析的 p 值。由于与 Spearman rho 用于关联两个序数变量的原因相同,这种方法似乎是有道理的。这个逻辑是“当你不知道尺度上的间隔宽度时,通过线性化任何可能的单调性来打破快死结:对数据进行排名”。

另一种方法(可能更严格和更灵活)是使用序数逻辑回归,序数变量作为 DV,名义变量作为 IV。Nagelkerke 的伪 R 平方的平方根(带有回归的 p 值)是另一个相关性度量请注意,您可以在序数回归中试验各种链接函数。然而,这种关联不是对称的:名义上的假设是独立的。

另一种方法可能是找到这种将序数数据单调转换为区间的方法——而不是对倒数第二段进行排名——这将为您最大化R (即Eta)。这是分类回归(= 具有最佳缩放比例的线性回归)。

还有一种方法是使用序数变量作为预测变量来执行分类树,例如 CHAID。此过程将合并在一起(因此它是与前一个相反的方法)相邻的有序类别,这些类别不区分名义预测变量的类别。然后,您可以依赖基于卡方的关联度量(例如 Cramer's V),就好像您将名义变量与名义变量相关联一样。

@Michael 在他的评论中提出了另一种方法 - 一种称为 Freeman's Theta的特殊系数。

所以,到目前为止,我们已经找到了这些机会:(1)排序,然后计算 Eta;(2) 使用序数回归;(3)使用分类回归(“优化”将序数变量转换为区间);(4)使用分类树(“优化”减少有序类别的数量);(5) 使用弗里曼的 Theta。

对响应进行单向方差分析,以城市为分组变量。Fp它给出的应该与Fp来自对虚拟编码城市的响应的回归,以及SSbetweencities/SStotal应该等于倍数R2从回归。多重R是城市与响应的相关性。