Nadaraya-Watson 最佳带宽

机器算法验证 条件期望 最佳 内核平滑 纳达拉亚-沃森
2022-04-12 13:07:06

我目前正在做一个统计项目,我需要估计一个条件期望E[Y|X=xi]使用 Nadaraya-Watson 估计器。为此,我有样本(x1,y1),...,(xn,yn), 在哪里n=14,我选择了带宽h这样:h=n15=0.5899, 鉴于共同的经验法则是hn15为最优。

但是,我不明白在什么意义上h是最优的。确实,我正在使用 R,ksmooth带有normal内核的函数:ksmooth(X,Y,"normal",bandwidth=h)。如果我选​​择这样的h

在此处输入图像描述

例如,如果我选择h等于 3(大约大 5 倍),我得到了一条更平滑的曲线,这才是我真正感兴趣的:

在此处输入图像描述

有人可以解释我在什么意义上hn15是“最佳的”吗?

如果我选择一个,我会牺牲什么h大于“最佳”之一:准确性、收敛速度等?

非常感谢,非常感谢。

1个回答

它是最佳的,因为它将数据生成过程的平均(积分)平方误差最小化为一些参数和样本大小的函数。诀窍是“与”成比例意味着有一个未知的因素相乘n15.

有各种或多或少受数据驱动的候选者,但使用二阶内核时最简单的 RoT 带宽是

h=σxn15.

参见Li 和 Racine,《非参数计量经济学:理论与实践》,第 66 页底部通常,通过使用 CV 来挑选可以做得比这更好h反而。