数据挖掘 - 各种数据集的标准相关系数 - 吾爱随笔录

各种数据集的标准相关系数

数据挖掘 Python 预处理相关性

2022-02-12 23:18:07

我理解了第一行的相关系数。但是图1中第二行和第三行的相关系数与第一行不同。为什么会这样？。甚至第二行和第三行的形状也不同？有人可以帮我了解下图吗

第二个问题与属性之间的相关性有关。提出这个问题的目的是为了从 StackOverflow 数据科学用户那里获得更多的理解。我从下图中学到的一件事是

如果您针对同一属性绘制属性，您将得到线条，这是没有用的。例如，如果您注意到 y 轴中的 median_house_value 与 x 轴中的 median_house_value 相比，它们基本上是直方图。

有什么有价值的反馈可以评论下面的图片吗？如果是这样，请告诉我。

1个回答

第一部分：

您必须问自己的问题是“鉴于我知道 x 值，我对 y 值有什么了解”。还有一个小提示：您可能只考虑线性关系。

考虑第一行。在第一幅图中，如果您知道 x 值，则 y 值为y = x，即您完全知道 y 值。在下面的两个图像中，如果 x 值很高，则 y 值也很高，但也有随机分量。因此，相关系数是正的（即知道 x 有助于估计 y），但不是 1（即没有精确的方程y = a*x。在中间图像中，x 坐标和 y 坐标之间没有关系——它们是纯粹随机的，所以没有相关性。在右边的三张图片中，它与左边的三张图片中的故事相同，但是符号被翻转了。

现在考虑第二行：在前三种情况下，如果您知道 x 值，您总是可以推断出 y 值，例如y = x、y = 0.5 x和y = 0.1 x。y = 1 xy中没有随机分量，所以如果你知道x，你也知道y的确切值，因此相关系数为1。公式是或无关紧要y = 0.1 x（即线的斜率不重要！）对于相关系数而言，重要的是存在这样一个导致精确匹配的线性系数。

在第三行，知道 x确实提供了一些关于 y 的知识。例如在中间的情节中，你有的关系y = x^2 + random，所以 x 和 y 之间确实存在某种关系，但它是非线性的。因此相关系数为零。您无法说“高 x 值也会导致高 y 值”或“高 x 值导致低 y 值”。

第二部分：

我假设这个图是用 Seaborn 的pairplot()函数生成的，尽管当然存在不同的函数来创建这种图。重要的是要注意，对角线上的图与其他元素根本不同。

非对角线图是二维散点图，即为每个数据样本绘制一个点。对角线图是每个特征的直方图，而不是散点图。这是因为两次相同变量的散点图总是会给你一条直线y = x。直方图实际上非常有用，因为您可以感受数据并猜测底层分布。

例如，您的total_rooms变量严重偏斜，大多数房屋的房间很少，但有一些异常值具有大量房间。因此，我不会相信很多的平均值total_rooms，而是使用中位数——当然，这在很大程度上取决于你正在做什么样的分析。

其它你可能感兴趣的问题

上一篇梯度树提升下一篇GridSearchCV 结果与直接应用的默认模型 (SVM) 不同