了解多元回归输出

机器算法验证 回归 方差分析 sas
2022-03-25 03:17:58

我是一名一年级的心理学学生。我正在和教授一起做一些研究工作,不幸的是,我现在需要使用的材料只在我的第二年涵盖。但我现在需要已经知道了。因此,我正在消耗我能找到的任何资源来快速跟上进度。我需要帮助来了解这里的这种特殊情况。涉及SAS,回归分析。

当我使用两个变量 a 和 b 在 SAS (proc reg) 中运行回归时。我懂了。我的理解是这两个变量(a&b)都不能显着预测我的目标变量。这是 SAS 输出。

                                     Analysis of Variance

                                            Sum of           Mean
        Source                   DF        Squares         Square    F Value    Pr > F

        Model                     2        3.32392        1.66196       1.00    0.3774
        Error                    46       76.80649        1.66971
        Corrected Total          48       80.13041


                     Root MSE              1.29217    R-Square     0.0415
                     Dependent Mean       -0.23698    Adj R-Sq    -0.0002
                     Coeff Var          -545.26074


                                     Parameter Estimates

                            Parameter       Standard                           Standardized
   Variable         DF       Estimate          Error    t Value    Pr > |t|        Estimate

   Intercept         1       -0.25713        0.18515      -1.39      0.1716               0
   a                 1       -0.35394        0.28797      -1.23      0.2253        -0.19510
   b                 1       -0.04706        0.39586      -0.12      0.9059        -0.01887

现在我尝试将 a 和 b 的交互包含到图片中。让我们称之为 aXb,现在输出表明 a 和 aXb 显着预测了我的目标变量。

                                     Analysis of Variance

                                            Sum of           Mean
        Source                   DF        Squares         Square    F Value    Pr > F

        Model                     3       16.64439        5.54813       3.93    0.0142
        Error                    45       63.48602        1.41080
        Corrected Total          48       80.13041


                     Root MSE              1.18777    R-Square     0.2077
                     Dependent Mean       -0.23698    Adj R-Sq     0.1549
                     Coeff Var          -501.20683


                                     Parameter Estimates

                            Parameter       Standard                           Standardized
   Variable         DF       Estimate          Error    t Value    Pr > |t|        Estimate

   Intercept         1       -0.06807        0.18098      -0.38      0.7086               0
   a                 1        3.01517        1.12795       2.67      0.0104         1.66201
   b                 1       -0.00994        0.36407      -0.03      0.9783        -0.00399
   aXb               1       -1.13782        0.37029      -3.07      0.0036        -1.90743

以下是我的问题:我不知道如何看待这种情况。综上所述,这对我意味着什么?另外,当您回答问题时,您能否补充一些资源、goog 关键字等,以便我了解有关这些主题的更多信息。

非常感谢你的帮助。

4个回答

看来您需要介绍回归。人们在这里提出了书籍推荐免费书籍推荐在这里

当我们不知道变量是什么或目标是什么时,很难确保您正确地进行分析。但根据输出,我可以告诉您,您的第二个回归规范看起来比您的第一个更好。我这么说是因为你有两个非常重要的系数,并且调整后的 R^2 值有了很大的飞跃。但请注意,尽管我考虑了这些重要线索,但具有更显着系数或更高调整 R^2 的模型并不总是更好。还有很多其他问题需要考虑。

您的回归模型使用 a 和 b 预测 Y。在您的第二个模型中,估计的回归方程为 -0.06807 + (3.01517 * a) - (0.00994 * b) - (1.13782 a b) 换句话说,插入 a 和 b,您将得到 Y 的模型预测。可以说的更多,但我会把你留在那里,建议你拿起一本教科书。

我强烈建议您尝试绘制数据。Y 与 a 在 x 轴上,Y 与 b 在 x 轴上,a 和 b 也是如此。

两者一起不会告诉您任何事情,而不是第二个单独告诉您!当存在交互时,主要影响是无趣且具有误导性的。第二个模型告诉你所有你需要知道的。这里有几个带有 R 代码的图,可帮助您了解第二个模型的外观......

library(lattice)

a <- rep(seq(-1.37, 2.12, (2.12--1.37)/9),4) 
b <- sort(rep(quantile(seq(-1.03, 1.30, .01),c(.2,.4,.6,.8)),10) )
y <- -0.06807 + (3.01517 * a) + (-0.00994 * b) + (-1.13782 *a*b)

xyplot(y~a|factor(b))

b 的水平对 a 的影响

这个显示了ab水平的估计影响。b的每个级别,关系都是正的。这是在存在交互a:b的情况下a的主要影响的显着正斜率

a <- sort(rep(quantile(seq(-1.37, 2.12, .01),c(.2,.4,.6,.8)),10) )
b <- rep(seq(-1.03, 1.30, (1.30--1.03)/9),4) 
y <- -0.06807 + (3.01517 * a) + (-0.00994 * b) + (-1.13782 *a*b)

xyplot(y~b|factor(a))

a 的水平对 b 的影响

这张图片显示了b在 a的级别内y估计影响您可以看到为什么您对b没有显着的主效应。y~b关系的方向取决于a的水平。因此,没有独立的关系(想象这些线的平均),而是显着的交互(考虑到a的水平时,模式清晰)

您可能会对线性模型的介绍感兴趣 几乎所有统计分析的基础),尤其是线性回归:

  • 它通过详细说明所有重要的方程式(通常在互联网上的其他任何地方留作练习),彻底解释了线性回归的许多数学方面;
  • 它使用一个简单但信息量足够大的数据集作为示例
  • 它提供了逐步进行计算所需的所有R 命令,并绘制了结果。

如果你想要一本专门关于这种回归的书——而不是一般的数据分析——我推荐Chatterjee 和 Price 的 Regression Analysis by Example好,不是技术性的,但它并不过分简单化。