关于方差分析和相关/关联的问题

数据挖掘 统计数据 相关性 统计模型 方差分析
2022-02-25 11:35:17

我一直在研究变量之间的统计关系:

  1. Pearsons, Spearman's 用于连续变量
  2. Kendall 的 Tau,Cramer 的 V 用于序数/名义变量。

我知道还有很多方法。最近我读到了 ANOVA 和假设检验。它似乎类似于测量相关性和关联性。事实上,我不知道这只是做同一件事的另一种方式,还是完全不同的事情。大多数对 ANOVA 的解释似乎比大多数对相关性或关联性的解释要复杂一些。

例如,我知道 Pearson 的 R 是按标准差缩放的协方差度量。ANOVA 代表方差分析。所以在我看来,这是同一类事情。但我不能100%肯定地说。

有人能解释一下这种技术,它的用途,以及它与测量相关性的对比吗?

1个回答
  • 关于 ANOVA 的用途:它可以回答我所拥有的数据样本的平均值之间的差异是由于随机性还是统计上显着的。然后它是一个显着性检验,让您了解您的平均值是否(在统计上显着)相同。一个缺点是它不会告诉您哪些数据样本与其他样本不同或相差多少(有用的来源)。您可以将过程想象如下(如数据科学家实用统计中所述):
  1. 将所有数据组合在一个框中
  2. 随机抽取 n 次重新采样,每次重新采样 m 个值(其中 n 是数据样本数,m 是每个样本中的数据点数)
  3. 记录 n 组中每一组的平均值
  4. 记录 n 组均值之间的方差
  5. 多次重复步骤 2-4(比如 1,000 次) 重采样方差超过观察方差的时间比例是多少?这是 pvalue。
  • 另一方面,相关性的直接测量为您提供了一个数字,它告诉您两个数据样本彼此线性变化的程度