我有几百个测量值。现在,我正在考虑使用某种软件将每个度量与每个度量相关联。这意味着有成千上万的相关性。其中应该(统计上)具有高度相关性,即使数据是完全随机的(每个度量只有大约 100 个数据点)。
当我找到相关性时,我如何将有关我寻找相关性的努力程度的信息包含在其中?
我的统计水平不高,所以请多多包涵。
我有几百个测量值。现在,我正在考虑使用某种软件将每个度量与每个度量相关联。这意味着有成千上万的相关性。其中应该(统计上)具有高度相关性,即使数据是完全随机的(每个度量只有大约 100 个数据点)。
当我找到相关性时,我如何将有关我寻找相关性的努力程度的信息包含在其中?
我的统计水平不高,所以请多多包涵。
这是一个很好的问题,值得一个清楚的统计思想家,因为它认识到多重测试的一个微妙但重要的方面。
有一些标准方法可以调整多个相关系数的 p 值(或等效地,扩大其置信区间),例如 Bonferroni 和 Sidak 方法 ( qv )。然而,由于通常必须在相关系数之间保持固有的数学关系,这些对于大型相关矩阵来说过于保守。(有关此类关系的一些示例,请参见最近的问题和随后的线程。)处理这种情况的最佳方法之一是进行置换(或重采样)测试. 使用相关性很容易做到这一点:在测试的每次迭代中,只需随机打乱每个字段的值的顺序(从而破坏任何固有的相关性)并重新计算完整的相关性矩阵。重复数千次(或更多),然后总结相关矩阵条目的分布,例如,给出它们的 97.5 和 2.5 百分位数:这些将用作在 null 下相互对称的双边 95% 置信区间无相关性假设。(第一次使用大量变量进行此操作时,您会惊讶于即使没有内在相关性,某些相关系数也会如此之高。)
报告结果时,无论您进行何种计算,都应包括以下内容:
相关矩阵的大小(即,您查看了多少个变量)。
您如何确定任何相关系数的 p 值或“显着性”(例如,将它们保持原样,应用 Bonferroni 校正,进行置换检验或其他)。
您是否查看了相关性的替代度量,例如Spearman 等级相关性。如果您这样做了,还请说明您选择实际报告和使用的方法的原因。
从您对 Peter Flom 问题的后续回复来看,听起来您可能会更好地使用在相关矩阵中查看更高级别结构的技术。
因子分析、PCA、多维缩放和变量聚类分析等技术可用于将您的变量分组为相对更相关的变量集。
此外,您可能想从理论上考虑应该存在什么样的结构。当您的变量数量很大而观察数量很少时,您通常最好更多地依赖先前的期望。
也许您可以对数据的随机子集进行初步分析以形成假设,然后使用其余数据测试这几个感兴趣的假设。这样,您就不必为几乎一样多的多次测试进行校正。(我认为...)
当然,如果您使用这样的程序,您将减少用于最终分析的数据集的大小,从而降低您找到实际效果的能力。但是,多重比较的校正也会降低功效,因此我不确定您是否一定会失去任何东西。
这是多重比较的一个例子。这方面有大量文献。
如果你有 100 个变量,那么你将有 100*99/2 =4950 个相关性。
如果数据只是噪声,那么您会认为其中 20 个中的 1 个在 p = .05 时是显着的。那是 247.5
不过,在走得更远之前,如果你能说出你为什么要这样做,那就太好了。这些变量是什么,你为什么要把它们关联起来,你的实质性想法是什么?
或者,您只是在寻找高相关性?