相关系数的阈值,用于指示相关矩阵中相关性的统计显着性

机器算法验证 相关性 统计学意义 多重比较
2022-03-29 06:28:50

我计算了一个包含 455 个数据点的数据集的相关矩阵,每个数据点包含 14 个特征。所以相关矩阵的维度是 14 x 14。

我想知道是否存在相关系数值的阈值,该阈值指出其中两个特征之间存在显着相关性。

我的值从 -0.2 到 0.85 不等,我认为重要的是那些高于 0.7 的值。

  • 是否存在应考虑作为阈值的相关系数的一般值,或者仅取决于我正在调查的数据类型的上下文?
3个回答

相关性的显着性检验

有一些统计显着性检验可以应用于单个相关性,这表明假设零假设为真,获得与样本相关性一样大或更大的相关性的概率。

关键是什么构成了统计上显着的相关系数取决于:

  • 样本量:更大的样本量将导致更小的阈值
  • alpha:通常设置为 0.05,较小的 alpha 将导致更高的统计显着性阈值
  • one-tailed / two-tailed test:我猜你会使用双尾,所以这可能无关紧要
  • 相关系数的类型:我猜你正在使用 Pearson's
  • x 和 y 的分布假设

在通常情况下,alpha 为 0.05,使用双尾检验,具有 Pearson 相关性,并且正态性至少是一个适当的近似值,影响截止的主要因素是样本量。

重要性阈值

另一种解释你的问题的方法是考虑你感兴趣的不是相关性是否在统计上显着,而是它是否实际上重要。

一些研究人员提供了解释相关系数含义的经验法则,但这些经验法则是特定领域的。

多重显着性检验

但是,因为您有兴趣标记矩阵中的显着相关性,所以这会改变推理上下文。你有k(k1)/2相关性k是变量的数量(即,14(13)/2=91. 如果原假设对矩阵中的所有相关性都为真,那么您运行的显着性检验越多,那么您犯 I 型错误的可能性就越大。例如,在您的情况下,您平均会91.05=4.55如果所有相关性的原假设都为真,则类型 I 错误。

正如@user603 所指出的,这些问题在前面的问题中得到了很好的讨论。

一般来说,我发现在解释相关矩阵以关注更高级别的结构时它很有用。这可以通过查看相关矩阵中的一般模式以非正式的方式完成。这可以通过使用 PCA 和因子分析等技术更正式地完成。这种方法避免了许多与多重显着性检验相关的问题。

一种选择是模拟或置换测试。如果您知道数据来自的分布,则可以根据该分布进行模拟,但所有观察结果都是独立的。如果您不知道分布,那么您可以相互独立地排列每个变量,这将为您提供每个变量的相同的一般边际分布,但消除了任何相关性。

执行上述任一操作(保持样本大小和矩阵尺寸相同)一整次(10,000 次左右),然后查看最大绝对相关性,或另一个可能感兴趣的高分位数。这将为您提供零假设的分布,然后您可以将实际观察到的相关性的最大值与(以及其他感兴趣的高分位数)进行比较。

您可以证明从正态分布中采样的两个随机独立向量的 Pearson 相关性中的标准误差是n2, 在哪里n是向量的长度。所以两个向量的统计显着相关性corr>>n2