具有灵活函数形式的回归

机器算法验证 回归 估计 非参数 非线性
2022-04-08 13:34:04

我假设表格的模型

Yi=α+βXi+g(Zi)+ϵi,

这里Zi是一个m维向量和ϵi是 iid 白噪声。我想确定是否β根据我的数据在统计上是显着的,而没有采取以下形式的强硬立场g. 这类问题通常采用什么类型的方法?

2个回答

对于 GAM 来说,这听起来是一项很棒的工作mgcv使用惩罚平滑样条估计g并添加一个相加效果X. 该模型看起来像gam(y ~ x + s(z)

library(mgcv)
#> Loading required package: nlme
#> This is mgcv 1.8-31. For overview type 'help("mgcv-package")'.


z = rnorm(1000)
x = rnorm(1000)
y = 2 + 0.25*x + sin(pi*z) + rnorm(1000, 0, 0.3)
d = data.frame(x, y, z)

model = gam(y ~ x + s(z), data = d)

summary(model)
#> 
#> Family: gaussian 
#> Link function: identity 
#> 
#> Formula:
#> y ~ x + s(z)
#> 
#> Parametric coefficients:
#>             Estimate Std. Error t value Pr(>|t|)    
#> (Intercept) 1.968566   0.009514  206.91   <2e-16 ***
#> x           0.262245   0.009888   26.52   <2e-16 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Approximate significance of smooth terms:
#>        edf Ref.df     F p-value    
#> s(z) 8.977      9 625.1  <2e-16 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> R-sq.(adj) =  0.865   Deviance explained = 86.6%
#> GCV = 0.091407  Scale est. = 0.090404  n = 1000

reprex 包于 2020-10-20 创建(v0.3.0)

该模型是部分线性回归模型,在您的情况下,g(Z)是一个讨厌的参数。有关该主题的入门知识,请参阅此链接的第 62 页。应用中需要特别注意的是 Robinson 的转换(链接文件第 62 页的第 7.7 节)。

在这些情况下,推理特别棘手,因为很难说关于g(Z)在一般意义上,因此您通常需要假设它位于某个空间中。Chernozhukov 等人最近提出了一种非常通用的推理方法。(2017)如果有兴趣。