为什么收缩真的有效,0 有什么特别之处?
1)为什么与方差增益相比,引入偏差造成的损害较小?
没必要,通常是这样。权衡是否值得取决于损失函数。但是我们在现实生活中关心的事情往往类似于平方误差(例如,我们更关心一个大误差而不是大约一半大小的两个误差)。
作为一个反例——想象一下,对于大学招生,我们将人们的 SAT 分数缩小到他们人口统计的平均 SAT 分数(无论如何定义)。如果做得好,这将在引入偏见的同时减少对人(某种)能力的估计的方差和均方误差。大多数人会恕我直言,认为这样的权衡是不可接受的。
2)为什么它总是有效?
3) 0(原点)有什么有趣的地方?显然我们可以在任何我们喜欢的地方收缩(即 Stein 估计器),但它会像原点一样工作吗?
我认为这是因为我们通常会缩小系数或效应估计。有理由相信大多数影响并不大(参见例如Andrew Gelman 的观点)。一种说法是,一个一切都以强烈的影响影响一切的世界是一个暴力的不可预测的世界。由于我们的世界具有足够的可预测性,可以让我们长寿并建立半稳定的文明,因此大多数影响并不大。
由于大多数效果并不大,因此错误地缩小少数真正大的效果同时也正确缩小可忽略不计效果的负载是有用的。
我相信这只是我们世界的一个属性,您可能可以在收缩不切实际的情况下构建自洽世界(很可能通过使均方误差成为不切实际的损失函数)。它只是碰巧不是我们生活的世界。
另一方面,当我们将收缩视为贝叶斯分析中的先验分布时,在某些情况下,收缩到 0 在实践中是非常有害的。
一个例子是高斯过程中的长度尺度(其中 0 是有问题的),Stan 手册中的建议是使用先验,使可忽略的权重接近于零,即有效地将小值从零“缩小”。类似地,负二项分布中分散的推荐先验有效地从零缩小。最后但并非最不重要的一点是,只要对正态分布进行了精确参数化(如在 INLA 中),使用逆伽马或其他从零收缩的先验分布很有用。
4)为什么各种通用编码方案更喜欢原点周围的较低位数?这些假设只是更有可能吗?
现在这超出了我的深度,但维基百科说在我们期望的通用编码方案中(根据定义)对于所有积极的所以这个属性似乎是定义的一个简单结果,与收缩无关(或者我错过了什么?)
Ridge、lasso 和弹性网络类似于以零为中心的先验的贝叶斯方法——例如,参见Hastie、Tibshirani 和 Wainwright 的Statistical Learning with Sparsity2.9 Lq Penalties and Bayes Estimates
部分:“这些估计器也有贝叶斯观点。......这意味着套索估计是使用拉普拉斯先验的贝叶斯 MAP(最大后验)估计量。”
回答您的问题的一种方法 ( what's so special about zero?
) 是我们估计的影响平均为零,而且它们往往很小(即我们的先验应该以零为中心)。在贝叶斯意义上,将估计缩小到零是最佳的,并且可以通过该镜头考虑套索、脊和弹性网。