在分析许多真实数据集时,我注意到大多数相关性是正的。例如,这是我当前数据的 Pearson 相关矩阵的可视化。这有什么原因吗?
编辑:矩阵是根据 500*140 数据集计算的,其中大多数变量是李克特项。这是相关性的分布。
这是另一个领域的例子。在不同的食物样本(相同重量)中测量了维生素和矿物质的含量。
在分析许多真实数据集时,我注意到大多数相关性是正的。例如,这是我当前数据的 Pearson 相关矩阵的可视化。这有什么原因吗?
编辑:矩阵是根据 500*140 数据集计算的,其中大多数变量是李克特项。这是相关性的分布。
这是另一个领域的例子。在不同的食物样本(相同重量)中测量了维生素和矿物质的含量。
尽管 ttnphns 的评论有点开玩笑 - 它实际上与您的问题有关。我们可能会认为不同的现象是由一组相关因素(可能会或可能不会被衡量)引起的。例如,假设我们有一个潜在因素这会影响对调查中一组李克特项目的响应。
在这个例子中,和都将具有正相关性,因为它们都以相同的方式相关. 对于许多数据集,可能许多项目都有一些共同的变量。例如,在维生素和矿物质含量方面,如果食物样本的大小不同,我预计较大的食物样本会含有更多的维生素和矿物质,从而使每个样本的边际相关性呈正相关。另一种解释可能是有意增加维生素含量的生产商也增加了矿物质含量(因为它们并没有真正相互竞争,并且可能作为健康食品销售)。
在李克特项目的情况下,正如彼得弗洛姆在评论中所说,我们通常构建调查以识别这些潜在的潜在因素,因此通过构建,许多项目是正相关的。锚点也有些武断,但肯定的问题(例如“你支持死刑吗?”)往往比否定的问题(例如“你不支持死刑吗?”)更准确地衡量。您也可以为李克特项目分配不同的数值,但通常有一个规模至(和作为不同的潜在响应)作为编码值的默认值。
请注意,您可以随意翻转此编码,因此如果样本中的所有相关性都是正的,您可以翻转一半的变量,使相关性相等。很多时候,我们代表价值观的方式是任意的,例如,如果你有一个名义上的男性和女性类别,你可以设置和或者你可以反过来做。同样,人们可能会做出这些任意的编码决定,以使项目看起来具有正相关性。
扩展 Scortchi/AndyW 的混杂因素点:
对于食物,我认为含水量是一个非常重要的混杂变量。特别是,如果您将天然食用的水分含量非常高的水果(西红柿、黄瓜)与“自然”状态已经干燥的水果(葡萄干)混合在一起,因此含有更多的所有东西,两者之间的巨大差异含水量实际上可以影响相关性。
如果你考虑一张只列出葡萄干和葡萄的小桌子,效果就会变得非常明显......
请注意,表中未列出水,因此未显示负相关。所以另一个原因(除了@Peter Flom 的评论)是人们对数据进行制表的方式也可以强调正相关:如果你想知道含水量,你只需要减去蛋白质、脂质、碳水化合物(取决于方式碳水化合物也列出了纤维)从 100 克原料重量 - 信息是多余的。但由于这些表格中的水分含量与其他营养成分相比不太受关注,因此减法留给读者。
然后,我们实际上知道数据中的某些(共)关系,例如
这些表有时会列出显然有上限的子类别。考虑
这种关系也倾向于产生正相关,这又是由我们对数据进行分组和制表的方式引起的。