相关系数很小

机器算法验证 相关性
2022-03-26 23:52:03

我目前正在为一个正在查看 yelp 数据的课程做一个项目。在下面显示的图表中,我将用户的平均评论评分与他们对评论的有用投票总数进行了比较。我眼中的变量看起来肯定是相关的,但是计算出的 r 值似乎不同意。

图形

这可能是因为我拥有大量数据吗?也许我错过了相关系数的重点?

3个回答

相关≠相关

普通皮尔逊相关性衡量两个变量之间的线性关联强度。考虑它的最简单方法(在我看来)是拟合的线性模型。如果模型完美拟合(即绘制是一条直线),则如果拟合不能变得更糟(例如,如果“真实”曲线是抛物线),则事实上,对于线性模型,熟悉的拟合优度统计量rxyyxyxr=1r=0E(y)=β0+β1xr2实际上只是相关系数的平方(因此是符号)。

因此,与您的情况一样,两个变量可以(或至少出现)非常密切相关,但相关性几乎为零:

在此处输入图像描述

有关这个非常漂亮的图形的更深入的解释和来源,请参阅这篇 Wikipedia 文章

大量数据只能帮助您更准确地确定相关性,并不能降低相关性。您的数据的问题似乎在于,是的,对于大量有用的选票,您的变量之间存在轻微的正相关关系,由拟合的线性方程描述,但您的大部分数据也接近 0 有用投票,与收视率的大变化相比,这种关系的影响很小。

我会推荐以下。对于可视化,使用较小的点或使用二维直方图。在图表的左侧,您有很多叠加的圆圈,很难看到任何东西。如果您绘制有用投票的对数而不是有用投票本身,事情也会变得更清楚。当然,您无法计算 0 的日志,但无论如何,删除具有 0 个有用投票的用户可能是个好主意。然后,您可以尝试对关系(记录有用投票)与(评分)进行线性拟合。

或者,您可以对数据进行排名转换(将每个数据点替换为其在数据点排序列表中的位置),然后尝试进行线性拟合。相应的相关系数称为Spearman相关

可能是因为你看到的关系不是线性的,通常的相关系数反映的是线性关系。正如@A._Donda 所说的变换useful votes,你会看到不同的画面。