我将使用平方指数内核 (SE) 进行高斯过程回归。这个内核的优点是:1)简单:只有3个超参数;2) 平滑:这个核是高斯的。
为什么人们这么喜欢“平滑”?我知道高斯核是无限可微的,但这有那么重要吗?(请让我知道 SE 内核如此受欢迎是否还有其他原因。)
PS:有人告诉我,现实世界中的大多数信号(没有噪声)都是平滑的,因此使用平滑内核对其进行建模是合理的。谁能帮我理解这个概念?
我将使用平方指数内核 (SE) 进行高斯过程回归。这个内核的优点是:1)简单:只有3个超参数;2) 平滑:这个核是高斯的。
为什么人们这么喜欢“平滑”?我知道高斯核是无限可微的,但这有那么重要吗?(请让我知道 SE 内核如此受欢迎是否还有其他原因。)
PS:有人告诉我,现实世界中的大多数信号(没有噪声)都是平滑的,因此使用平滑内核对其进行建模是合理的。谁能帮我理解这个概念?
“ Natura non facit saltus ”是哲学中的一个古老原则。此外,美丽与和谐就是这样的原则。另一个对统计学有影响的哲学原则是定性思维:传统上我们不考虑效应大小,而是考虑效应是否存在。这让假设检验。估计器对于您对自然的感知来说太精确了。照原样接受。
统计数据必须服务于人类的感知。所以不连续点是不受欢迎的。有人会立即问:为什么恰好在此不连续?特别是在密度估计中,这些不连续点主要是由于真实数据的非渐近性。但是您不想了解您的特定有限样本,而是了解潜在的自然事实。如果您相信这种性质不会跳跃,那么您需要平滑估计器。
从严格的数学角度来看,几乎没有理由这样做。此外,由于莱布尼茨和牛顿的自然现象变得不平滑。与您正在为之工作的自然科学家交谈。挑战他对平滑/不连续性的看法,然后做你们都认为对他理解最有帮助的事情。
实际问题还有两个原因。第一个是分析函数在数学上更容易使用,因此可以证明有关算法的定理并为它们奠定更坚实的基础。
二是灵敏度。假设您有一个机器学习器处不连续。然后你会得到和的非常不同的结果,但这没关系,因为我们让它不连续。现在,如果你用稍微不同的数据()训练你的模型,其中随机噪声只有一点点不同,不连续性现在将在处,可能非常接近,但不完全是,现在, 对于的某些值,和有一个非常不同的值.
有很多动机,取决于问题。但想法是一样的:添加一些关于某个问题的先验知识以实现更好的解决方案并应对复杂性。更多的说法是:模型选择。这是一个关于模型选择的好例子。
另一个与之密切相关的想法是找到数据样本的相似性度量(有与该想法相关的不同术语:地形映射、距离度量、流形学习……)。
现在,让我们考虑一个实际的例子:光学字符识别。如果你拍摄一个角色的图像,你会期望分类器处理不变性:如果你旋转、位移或缩放图像,它应该能够检测到它。此外,如果您对输入稍作修改,您会期望分类器的答案/行为也会略有不同,因为两个样本(原始样本和修改后的样本非常相似)。这就是执行平滑的地方。
有很多论文涉及这个想法,但是这篇(模式识别中的变换不变性、切线距离和切线传播,Simard 等人)非常详细地说明了这些想法