何时使用非参数回归?

机器算法验证 回归 多重回归 非参数 残差 sas
2022-03-07 07:24:40

我在 SAS 中使用 PROC GLM 来拟合以下形式的回归方程

=b0+b1X1+b2X2+b3X3+b4

所得残差的 QQ 图表明偏离正态性。的任何转变在使残差正常时没有用。

此时,我是否可以安全地切换到 PROC LOESS 等非参数方法。

我已经用过PROC LOESS了,合身看起来比PROC GLM好。但是我对非参数回归知之甚少。我不知道什么时候选择非参数回归而不是参数回归。

有人可以帮我弄这个吗?

我将继续添加另一个问题。以下是我在模型中的变量的描述。

=医疗费用X1=注射次数X2=手术次数X3=物理治疗次数=时间
有时我会得到负的预测成本。这根本不符合逻辑。我该如何解决这个问题?

4个回答

在查看残差的 QQ 图之前,您应该通过针对模型中的预测变量(可能还针对您没有使用的其他变量)绘制残差来评估拟合质量。此图中应显示非线性。如果变量的影响X真的是线性的,你期望残差图X是“水平的”,没有可见的结构:

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

也就是说,一个随机的水平“斑点”点,以线 resid=0 为中心。

如果效果是非线性的,您希望在该图中看到一些曲率。(并且,请忽略 QQplots,直到你使用上面的图整理出非线性!)

您还应该考虑可能的相互作用(通常由乘积项建模),即一个变量的影响取决于另一个变量的水平,(如果您的三个变量同时具有高值,也许这表明一些特别困难病人?如果是这样,可能需要交互)。

如果您尝试了一些非线性模型,在尝试了交互和转换之后(您尝试过log(Cost)吗?)您尝试过一些 box-cox-transformations 吗?由于您有多重回归,我认为这不是loess您需要的,您应该寻找gam(广义加法模型,SAS 应该有,在 R 中它在 package 中mgcv)。

除非数据真正位于一条直线上,否则 LOESS 将始终提供比回归更好的拟合。LOESS 是一种局部线性近似,旨在传递接近数据。这些方法基本上是探索性的。虽然将线性模型外推到拟合极限之外是危险的,但在 LOESS 的情况下外推将是鲁莽的。

如果您的模型给您带来负成本,这是一个很好的迹象,表明线性回归不适用于您拥有的变量。你说你尝试过转换。您是否根据预测变量记录了成本?

从本质上讲,成本与您提到的变量之间不太可能存在简单的关系。有时线性回归的目的只是为了证明存在某种相关性,也许是为了选择一组合理的预测变量。

Bravo 进行残差分析。让您领先于典型的分析师。(不过,您对模型的描述没有描述错误结构。)您应该考虑 X 的变换以及 Y 的变换。我意识到 SAS 在样条拟合建模方面落后于 R,但我知道最近的版本提供了这种能力。考虑为 X 项添加受限三次样条拟合。作为参考,Frank Harrell 的文本“回归建模策略”很难被击败。对于这种方法,它有可靠的统计论据。它是一种参数化方法,允许发现数据中的结构,否则这些结构会被遗漏。

我认为 kjetil 给了你一些很好的建议。我要补充一点,非正态残差并不意味着您必须从线性或非线性回归跳到非参数回归。通过进行非参数回归,您放弃了函数形式的结构。您可以首先使用 OLS 回归的稳健回归替代方案。如果需要下一步,则使用广义线性模型和广义加性模型。在我看来,黄土应该是你最后的手段。我认为我同意 kjetil 的观点。