机器算法验证 - （非二分）名义变量与数值（区间）或序数变量之间的相关系数 - 吾爱随笔录

（非二分）名义变量与数值（区间）或序数变量之间的相关系数

机器算法验证相关性 matlab 序数数据分类数据连续数据

2022-01-31 02:36:04

我已经阅读了该站点中的所有页面，试图找到我的问题的答案，但似乎没有人适合我……

首先，我向您解释我正在使用的数据类型......

假设我有一个数组向量，其中包含多个城市名称，300 个用户每人一个。我还有另一个数组向量，其中包含对每个用户的调查的分数响应或每个用户的连续值。

我想知道是否存在计算这两个变量之间相关性的相关系数，因此，在名义变量和数字/连续或有序变量之间。

我在互联网上搜索过，在某些页面中，他们建议使用 contingency coefficient 或 Cramer's V 或 Lambda 系数或 Eta 。对于每一个测量值，只要说它们可以应用于我们有名义变量和区间或数值变量的数据。问题是搜索和搜索，试图理解它们中的每一个，有时会写或看例子，如果你有二分名义变量，它们是合理的，除了Cramer's V，其他时候没有写任何要求数据的类型。许多其他页面说应用回归是正确的，这是正确的，但我只是想知道这种数据是否存在像 pearson/spearman 这样的系数。

我也认为使用 Spearman Correlation coeff 不太合适，因为城市不可排序。

我还自己构建了 Cramer'sV 和 Eta 的函数（我正在使用 Matlab）但是对于 Eta，他们没有谈论任何 p 值来查看系数是否具有统计显着性......

在 matlabWorks 站点中，还有一个不错的工具箱，上面写着要计算 eta^2，但它需要的输入类型是无法理解的。

这里有像我一样做过测试的人吗？如果您需要更多详细信息来了解我正在使用的数据类型，请询问我，我会尽力为您解释得更好。

2个回答

标称与区间

名义变量和区间（“数值”）变量之间最经典的“相关”度量是Eta，也称为相关比，等于单向 ANOVA 的 R 平方根（p 值 =方差分析）。Eta 可以看作是一种对称关联度量，就像相关性一样，因为 ANOVA 的 Eta（名义上是独立的，数值是相关的）等于 Pillai 的多元回归轨迹（数值是独立的，一组虚拟变量对应于名义上的依赖）。

一个更微妙的衡量标准是类内相关系数（ICC）。相对于数值变量，Eta 仅掌握组之间的差异（由名义变量定义），而 ICC 同时还测量组内数值之间的协调性或一致性；换句话说，ICC（尤其是原始的无偏“配对”ICC 版本）停留在值的水平上，而 Eta 在统计水平上运行（组均值与组方差）。

标称与序数

关于名义变量和有序变量之间的“相关性”度量的问题不太明显。困难的原因是，就其性质而言，序数尺度比间隔或名义尺度更“神秘”或“扭曲”。难怪到目前为止，专门针对序数数据的统计分析的表述相对较差。

一种方法可能是将您的序数数据转换为等级，然后计算Eta，就好像等级是区间数据一样。这种 Eta 的 p 值 = Kruskal-Wallis 分析的 p 值。由于与 Spearman rho 用于关联两个序数变量的原因相同，这种方法似乎是有道理的。这个逻辑是“当你不知道尺度上的间隔宽度时，通过线性化任何可能的单调性来打破快死结：对数据进行排名”。

另一种方法（可能更严格和更灵活）是使用序数逻辑回归，序数变量作为 DV，名义变量作为 IV。Nagelkerke 的伪 R 平方的平方根（带有回归的 p 值）是另一个相关性度量。请注意，您可以在序数回归中试验各种链接函数。然而，这种关联不是对称的：名义上的假设是独立的。

另一种方法可能是找到这种将序数数据单调转换为区间的方法——而不是对倒数第二段进行排名——这将为您最大化R （即Eta）。这是分类回归（= 具有最佳缩放比例的线性回归）。

还有一种方法是使用序数变量作为预测变量来执行分类树，例如 CHAID。此过程将合并在一起（因此它是与前一个相反的方法）相邻的有序类别，这些类别不区分名义预测变量的类别。然后，您可以依赖基于卡方的关联度量（例如 Cramer's V），就好像您将名义变量与名义变量相关联一样。

@Michael 在他的评论中提出了另一种方法 - 一种称为 Freeman's Theta的特殊系数。

所以，到目前为止，我们已经找到了这些机会：（1）排序，然后计算 Eta；(2) 使用序数回归；（3）使用分类回归（“优化”将序数变量转换为区间）；（4）使用分类树（“优化”减少有序类别的数量）；(5) 使用弗里曼的 Theta。

对响应进行单向方差分析，以城市为分组变量。这 $F$ 和 $p$ 它给出的应该与 $F$ 和 $p$ 来自对虚拟编码城市的响应的回归，以及 $SS_{between\, cities}/SS_{total}$ 应该等于倍数 $R^2$ 从回归。多重 $R$ 是城市与响应的相关性。

其它你可能感兴趣的问题

上一篇计算 beta 分布均值的置信区间下一篇什么是随机性？