机器算法验证 - 相关系数的阈值，用于指示相关矩阵中相关性的统计显着性 - 吾爱随笔录

重要性阈值

另一种解释你的问题的方法是考虑你感兴趣的不是相关性是否在统计上显着，而是它是否实际上重要。

一些研究人员提供了解释相关系数含义的经验法则，但这些经验法则是特定领域的。

多重显着性检验

但是，因为您有兴趣标记矩阵中的显着相关性，所以这会改变推理上下文。你有 $k(k-1)/2$ 相关性 $k$ 是变量的数量（即， $14(13)/2=91$ . 如果原假设对矩阵中的所有相关性都为真，那么您运行的显着性检验越多，那么您犯 I 型错误的可能性就越大。例如，在您的情况下，您平均会 $91 * .05 = 4.55$ 如果所有相关性的原假设都为真，则类型 I 错误。

正如@user603 所指出的，这些问题在前面的问题中得到了很好的讨论。

一般来说，我发现在解释相关矩阵以关注更高级别的结构时它很有用。这可以通过查看相关矩阵中的一般模式以非正式的方式完成。这可以通过使用 PCA 和因子分析等技术更正式地完成。这种方法避免了许多与多重显着性检验相关的问题。

一种选择是模拟或置换测试。如果您知道数据来自的分布，则可以根据该分布进行模拟，但所有观察结果都是独立的。如果您不知道分布，那么您可以相互独立地排列每个变量，这将为您提供每个变量的相同的一般边际分布，但消除了任何相关性。

执行上述任一操作（保持样本大小和矩阵尺寸相同）一整次（10,000 次左右），然后查看最大绝对相关性，或另一个可能感兴趣的高分位数。这将为您提供零假设的分布，然后您可以将实际观察到的相关性的最大值与（以及其他感兴趣的高分位数）进行比较。

您可以证明从正态分布中采样的两个随机独立向量的 Pearson 相关性中的标准误差是 $n^{-2}$ ，在哪里 $n$ 是向量的长度。所以两个向量的统计显着相关性 $corr >> n^{-2}$

其它你可能感兴趣的问题

上一篇分类变量之间的共线性下一篇交叉验证如何成为衡量统计模型性能的“黄金标准”？

相关系数的阈值，用于指示相关矩阵中相关性的统计显着性

相关性的显着性检验

重要性阈值

多重显着性检验