什么是收缩?

机器算法验证 估计 预测模型 正则化
2022-02-10 18:23:25

收缩这个词在某些圈子里被广泛使用。但什么是收缩,似乎并没有一个明确的定义。如果我有一个时间序列(或某个过程的任何观察集合),我可以通过哪些不同的方式来测量该序列的某种类型的经验收缩?我可以谈论哪些不同类型的理论收缩?收缩如何帮助预测?人们可以提供一些好的见解或参考吗?

2个回答

1961 年,James 和 Stein 发表了一篇名为“Estimation with Quadratic Loss”的文章https://projecteuclid.org/download/pdf_1/euclid.bsmsp/1200512173虽然它没有专门提出收缩这个术语,但他们讨论了高维(实际上甚至是 3 个参数位置)统计的极小极大估计量,其风险(预期损失)比正常数据的通常 MLE(每个分量的样本平均值)要小. Bradley Efron 称他们的发现是“战后数理统计中最引人注目的定理”。这篇文章被引用了 3,310 次。

Copas 在 1983 年撰写了第一篇文章回归、预测和收缩来创造术语“收缩”。它在摘要中隐含定义:

回归预测器对新数据的拟合几乎总是比它对原始数据的拟合差。预计这种收缩会导致 Stein 型预测器,在某些假设下,它给出的预测均方误差均低于最小二乘法。

在所有后续研究中,收缩似乎是指在寻找可接受和/或极大极小估计量的情况下,预测和估计的样本外有效性的操作特征(及其估计)。

这是关于正则化的。假设您想拟合一条曲线并使用平方损失函数(您可以选择不同的)。经过fit您想恢复控制生成该曲线的过程的参数。现在想象一下,您想使用第 100 个多项式来拟合这条曲线(仅作为示例)。您很可能会过度拟合或捕捉曲线的每一个扭结和噪声。此外,您在给定训练数据区间之外的预测能力可能会很差。因此,正则化项被添加到目标函数中,其权重乘以正则化因子 - l_1、l_2 或自定义。在 l_2 的情况下,这可能更容易理解,这将产生一个效果,即大参数值将被迫减少,也就是收缩。您可以将正则化或收缩视为将您的算法推向可能是更好解决方案的解决方案。