或
如果是科学 SAT 的预测随机变量
是预测变量随机变量科学GPA
由方程给出
R
在给定决定系数的情况下,和之间的关系是什么?
或
如果是科学 SAT 的预测随机变量
是预测变量随机变量科学GPA
由方程给出
R
在给定决定系数的情况下,和之间的关系是什么?
当没有残差变化()时,回归线完美拟合数据,为 1,而当残差较大时,接近 1,因此接近 0。
在给定决定系数的情况下,我们说 X 和 Y 之间的关系是什么?
在这种情况下(简单线性回归)是两个变量之间的 Pearson 相关系数和标准化回归系数,而衡量模型解释的变异性比例。由于您的回归方程的系数为0.006,为 0.3,很明显这两个变量是在不同的尺度上测量的。如果你标准化这两个变量,和的系数将是相同的。有关详细信息,请参见此处。
所以解释是 X 和 Y 之间存在正相关关系,并且对于 X 每增加 1 个单位,预测 Y 增加 0.006 个单位并且模型解释了的 30% 的可变性。
绘制数据并考虑模型的假设(尤其是线性假设)是一个好主意,如果您打算使用模型进行推理,则应进行进一步检查。
我认为重要的是要考虑回归正在做什么。那么决定系数是有道理的。
假设我们收集了一些关于人们身高的数据。从我们的数据中,我们发现平均值为 5'2",中间范围(Q1 到 Q3)为 4'2" 到 6'2"。给定一个新人,你猜身高是多少?
根据您的应用程序,均值可能是也可能不是您正在寻找的东西,但假设它是,因为 OLS 回归正在预测条件均值。你可以猜到 5'2" 的范围是 4'2" 到 6'2",但范围太广了!你有点不知道这个随机的对象会有多高。但是,在没有任何其他对象的情况下知识,你知道平均值平均得到正确答案,所以你猜平均值。你得到错误的答案 - 很多。
但是,您可以收集有关您测量身高的人的其他信息。我预计男性和女性之间的身高差异。当然,我预计不同年龄的身高差异。
现在你知道你要猜身高的人是一个40岁的男人。你去看看已知身高的受试者,没有任何 40 岁的男性,但你有 39、41 和 42 岁的男性,他们的平均身高为 5 英尺 9 英寸,范围为 5 英尺 8 英寸到5'10"。您对 5'9" 的答案更有信心。事实上,这个主题是 5'8"。通过对年龄和性别进行回归,你已经将你的错误从 6" 减少到 1"。
回归的目标是通过使用其他信息来减少这种可变性。其他信息构成模型中的预测变量。然后回归预测条件分布的平均值,条件是其他信息(例如男性和 40 岁)。
让我们回到决定系数的公式。总平方和是通过猜测所有观察值的平均值而错过正确值的程度。平方误差的总和是通过预测条件分布的平均值,你错过了多少正确答案。回归的平方和是通过考虑附加信息减少了多少错误。与其天真地猜测整体平均值,不如对主题有所了解并加强猜测。
当我们说决定系数是 SSReg/SSTotal 时,我们是在说额外信息(预测变量)解释了观察中变异性的百分比。如果我们有一个变异性很小的条件分布,那么我们可以对新的观察结果做出非常严格的猜测。