绘图普遍用于引入简单回归(由单个预测器预测的响应)的原因是它们有助于理解。
但是,我相信我可以提供一些可能有助于理解正在发生的事情的味道。在本文中,我将主要集中于尝试传达他们给出的一些理解,这可能有助于您在阅读回归时通常会遇到的其他一些方面。因此,此答案将主要处理您帖子的特定方面。
想象一下,你坐在一张长方形的大桌子前,比如一张普通的办公桌,一张长一臂跨度(可能是 1.8 米),宽度可能是那张桌子的一半。
您以通常的位置坐在桌子前,在一个长边的中间。在这张桌子上,大量的钉子(头部相当光滑)被锤入顶面,使每个钉子都伸出一点点(足以感觉到它们在哪里,并且足以在上面系一根绳子或系一根橡皮筋) )。
这些钉子与桌子边缘的距离不同,这样一来,朝向一端(比如左端),它们通常更靠近桌子边缘,然后当你向另一端移动时,钉头往往离你的边缘更远。
进一步想象,在您的边缘的任何给定位置,了解指甲与您的边缘的平均距离是有用的。
沿着桌子边缘选择一个地方,把手放在那里,然后直接伸手穿过桌子,轻轻地将手直接向后拉,然后再移开,在钉头上来回移动你的手。你会遇到这些指甲上的几十个凸起——在你手的那一个狭窄的宽度内(当它直接从你的边缘移动时,与桌子的左端保持恒定的距离),一个部分或条带,大约 10 厘米宽.
这个想法是在那个小区域中计算出从桌子边缘到钉子的平均距离。直观地说,它只是我们碰到的颠簸的中间,但如果我们测量桌子的那个手掌宽的部分到指甲的距离,我们可以很容易地计算出这些平均值。
例如,我们可以使用一个丁字尺,它的头部沿着桌子的边缘滑动,它的轴朝向桌子的另一侧,但就在桌子上方,这样我们就不会在它向左滑动时碰到钉子或者是的——当我们通过一个给定的钉子时,我们可以得到它沿着 T 形正方形轴的距离。
因此,在我们边缘的一系列地方,我们重复这个练习,在一个手掌宽度的条带中找到所有的指甲,这些指甲朝向和远离我们,并找到它们的平均距离。也许我们将桌子沿着边缘分成手掌宽度的条带(因此每个钉子都恰好在一个条带中遇到)。
现在假设有 21 个这样的条带,第一个在左边缘,最后一个在右边缘。随着我们越过条带,这些手段离我们的桌面边缘越来越远。
这些均值形成了一个简单的非参数回归估计,对给定 x(沿我们的边缘到左端的距离)即 E(y|x) 的 y(我们的距离)的期望值。具体来说,这是一个合并的非参数回归估计量,也称为回归图
如果这些条带平均值有规律地增加——也就是说,当我们在条带上移动时,每个条带的平均值通常增加大约相同的数量——那么我们可以通过假设 y 的期望值是线性的来更好地估计我们的回归函数x 的函数 - 即给定 x 的 y 的期望值是一个常数加上 x 的倍数。这里的常数表示当我们在 x 为零时钉子往往在哪里(通常我们可以将它放在最左边缘,但它不一定是),并且 x 的特定倍数是平均速度的平均速度当我们向右移动一厘米(比如说)时会发生变化。
但是如何找到这样的线性函数呢?
想象一下,我们将一根橡皮筋绕在每个钉头上,然后将每根橡皮筋固定在桌子上方、钉子顶部的一根细长棍子上,这样它就位于我们拥有的每条带子的“中间”附近的某个地方为了。
我们以这样的方式连接带子,使它们仅在朝向和远离我们的方向(而不是向左或向右)拉伸 - 他们会向左拉,以便使它们的拉伸方向与棍子成直角,但在这里我们阻止了这一点,因此它们的拉伸方向仅保持在朝向或远离我们桌子边缘的方向上。现在,随着带子将棒拉向每个钉子,我们让棒子稳定下来,更远的钉子(带有更多拉伸的橡皮筋)比靠近棒子的钉子拉得更厉害。
然后,拉动棍子的所有带子的组合结果将是(理想情况下,至少)拉动棍子,以最小化拉伸橡皮筋的平方长度之和;在直接穿过桌子的那个方向上,在任何给定的 x 位置,从我们的桌子边缘到棍子的距离将是我们对给定 x 的 y 的期望值的估计。
这本质上是一个线性回归估计。
现在,想象一下,一棵大树上挂着许多水果(也许像小苹果),而不是钉子,我们希望找到水果在地面上的平均距离,因为它随着地面上的位置而变化。想象一下,在这种情况下,离地高度会随着我们前进而变大,而当我们向右移动时会稍微变大,同样以常规方式,所以每向前迈一步通常会改变平均高度大约相同的量,并且每一步都会改变right 也会将平均值改变一个大致恒定的量(但这个平均变化量与步进变化量不同)。
如果我们最小化从水果到薄片(可能是非常硬的塑料薄片)的垂直距离平方和,以便计算出平均高度在我们向前或向右走时如何变化,那将是具有两个预测变量的线性回归 - 多元回归。
这是仅有的两个情节可以帮助理解的情况(它们可以快速显示我刚才详细描述的内容,但希望你知道有一个基础来概念化相同的想法)。除了这两种最简单的情况,我们只剩下数学了。
现在以您的房价为例;你可以用沿着桌子边缘的距离来表示每个房子的面积 - 将最大的房子大小表示为靠近右边缘的位置,每隔一个房子大小将在左边的某个位置,一定数量的厘米将代表一些平方米数。现在距离代表售价。将最昂贵的房子表示为靠近桌子最远边缘的某个特定距离(与往常一样,距离椅子最远的边缘),每移开一厘米将代表一定数量的里亚尔。
目前假设我们选择了表示法,使得桌子的左边缘对应于房屋面积为零,而近边缘对应于房价为 0。然后我们为每所房子钉上一个钉子。
我们可能不会在边缘的左端附近有任何钉子(它们可能主要朝向右侧并远离我们),因为这不一定是一个好的比例选择,但您选择的无截距模型会使这个更好的方式来讨论它。
现在在您的模型中,您强制棍子穿过桌子近边缘左角的一圈绳子 - 从而强制拟合模型的区域为零的价格为零,这可能看起来很自然 - 但想象一下,如果有影响每笔销售的一些相当稳定的价格组成部分。那么让截距不为零是有意义的。
在任何情况下,通过添加该循环,与之前相同的橡皮筋练习将找到我们对线的最小二乘估计。