稳健线性模型中的加权对拟合优度分析有意义吗?R2R2

机器算法验证 r 拟合优度 r平方 强大的 rlm
2022-02-08 02:34:59

我使用MASS 包中的RMM 权重估计了一个稳健的线性模型。rlm()`R` 没有为模型提供值,但如果它是一个有意义的数量,我希望有一个。我也很想知道是否有一个值以与稳健回归中的观察加权相同的方式加权总方差和残差方差。我的一般想法是,如果为了回归的目的,我们基本上使用权重,因为它们在某种程度上是异常值,所以对一些估计的影响较小,那么也许为了计算我们也应该给出那些相同的估计影响较小?R2R2r2

和加权写了两个简单的函数,它们在下面。我还包括了为我的模型(称为 HI9)运行这些函数的结果。编辑:我发现新南威尔士大学的 Adelle Coster 的网页给出了一个公式,其中包括计算两者的权重向量,就像我所做的那样,并要求她提供更正式的参考:http://web.maths。 unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html(仍在寻求 Cross Validated 的帮助,了解如何解释这个加权。)R2R2R2SSeSStr2

#I used this function to calculate a basic r-squared from the robust linear model
r2 <- function(x){  
+ SSe <- sum((x$resid)^2);  
+ observed <- x$resid+x$fitted;  
+ SSt <- sum((observed-mean(observed))^2);  
+ value <- 1-SSe/SSt;  
+ return(value);  
+ }  
r2(HI9)  
[1] 0.2061147

#I used this function to calculate a weighted r-squared from the robust linear model
> r2ww <- function(x){
+ SSe <- sum((x$w*x$resid)^2); #the residual sum of squares is weighted
+ observed <- x$resid+x$fitted;
+ SSt <- sum((x$w*(observed-mean(observed)))^2); #the total sum of squares is weighted      
+ value <- 1-SSe/SSt;
+ return(value);
+ }
 > r2ww(HI9)
[1] 0.7716264

感谢任何花时间回答这个问题的人。如果我已经错过了一些非常好的参考资料,或者我上面的代码难以阅读(我不是代码专家),请接受我的歉意。

2个回答

以下答案基于:(1)我对 Willett 和 Singer(1988 年)关于 R 平方的另一个注意事项的解释:它用于加权最小二乘回归分析。美国统计学家。42(3)。pp236-238,以及(2)稳健线性回归本质上是加权最小二乘回归的前提,其权重通过迭代过程估计。

我在问题中为 r2w 给出的公式需要稍加修正,以对应于 Willet 和 Singer (1988) 中针对 r2wls 的方程 4:SSt 计算也应该使用加权平均值:

the correction is SSt <- sum((x$w*observed-mean(x$w*observed))^2)].

这个(校正的)加权 r 平方的含义是什么?Willett 和 Singer 将其解释为:“转换后的 [加权] 数据集中的决定系数。它是加权Y 中可通过加权X 解释的变化比例的量度,并且是输出为的数量执行 WLS 回归时主要统计计算机软件包的 R2”。

作为拟合优度的衡量标准,它是否有意义?这取决于它是如何呈现和解释的。Willett 和 Singer 警告说,它通常比在普通最小二乘回归中获得的 r 平方高很多,并且高值鼓励突出显示......但如果按照传统意义上的 r 解释,这种显示可能具有欺骗性-平方(作为未加权的比例模型解释的变化)。Willett 和 Singer 提出一个不那么“欺骗性”的替代方案是 pseudoR2wls(他们的等式 7),它相当于我在原始问题中的函数 r2。一般来说,Willett 和 Singer 还警告说,依赖任何 r2(甚至是它们的 pseudor2wls)作为拟合优度的唯一衡量标准是不好的。尽管有这些警告,但稳健回归的整个前提是某些案例被判断为“不那么好”,并且在模型拟合中的重要性不高,在模型评估过程的一部分中反映这一点可能会很好。所描述的加权 r 平方可以是拟合优度的一种很好的衡量标准 - 只要在演示文稿中明确给出了正确的解释,并且不依赖于作为拟合优度的唯一评估。

@CraigMilligan。不应该:

  • 权重在方括号之外
  • 加权平均值计算为我们也可以使用sum(x$w*observed)/sum(x$w)weighted.mean(observed,x$w)

像这样的东西:

r2ww <- function(x){
  SSe <- sum(x$w*(x$resid)^2)
  observed <- x$resid+x$fitted
  SSt <- sum(x$w*(observed-weighted.mean(observed,x$w))^2)
  value <- 1-SSe/SSt;
  return(value);
}