第一部分:
您必须问自己的问题是“鉴于我知道 x 值,我对 y 值有什么了解”。还有一个小提示:您可能只考虑线性关系。
考虑第一行。在第一幅图中,如果您知道 x 值,则 y 值为y = x,即您完全知道 y 值。在下面的两个图像中,如果 x 值很高,则 y 值也很高,但也有随机分量。因此,相关系数是正的(即知道 x 有助于估计 y),但不是 1(即没有精确的方程y = a*x。在中间图像中,x 坐标和 y 坐标之间没有关系——它们是纯粹随机的,所以没有相关性。在右边的三张图片中,它与左边的三张图片中的故事相同,但是符号被翻转了。
现在考虑第二行:在前三种情况下,如果您知道 x 值,您总是可以推断出 y 值,例如y = x、y = 0.5 x和y = 0.1 x。y = 1 xy中没有随机分量,所以如果你知道x,你也知道y的确切值,因此相关系数为1。公式是或无关紧要y = 0.1 x(即线的斜率不重要!)对于相关系数而言,重要的是存在这样一个导致精确匹配的线性系数。
在第三行,知道 x确实提供了一些关于 y 的知识。例如在中间的情节中,你有 的关系y = x^2 + random,所以 x 和 y 之间确实存在某种关系,但它是非线性的。因此相关系数为零。您无法说“高 x 值也会导致高 y 值”或“高 x 值导致低 y 值”。
第二部分:
我假设这个图是用 Seaborn 的pairplot()函数生成的,尽管当然存在不同的函数来创建这种图。重要的是要注意,对角线上的图与其他元素根本不同。
非对角线图是二维散点图,即为每个数据样本绘制一个点。对角线图是每个特征的直方图,而不是散点图。这是因为两次相同变量的散点图总是会给你一条直线y = x。直方图实际上非常有用,因为您可以感受数据并猜测底层分布。
例如,您的total_rooms变量严重偏斜,大多数房屋的房间很少,但有一些异常值具有大量房间。因此,我不会相信很多的平均值total_rooms,而是使用中位数——当然,这在很大程度上取决于你正在做什么样的分析。