为什么我们要讨论不同拓扑中不同估计器的收敛行为?

机器算法验证 贝叶斯 最大似然 统计学习
2022-03-24 23:49:39

在《代数几何和统计学习理论》一书的第一章讨论了不同函数空间中估计的收敛性,它提到贝叶斯估计对应于施瓦茨分布拓扑,而最大似然估计对应于上范数拓扑(第 7 页):

例如sup-norm、 -norm、希尔伯特空间的弱拓扑、施瓦茨分布拓扑等等。是否成立很大程度上取决于函数空间的拓扑贝叶斯估计对应于施瓦茨分布拓扑,而最大似然或后验方法对应于上范数。这种差异强烈影响奇异模型的学习结果。LpL2Kn(w)K(w)

其中分别是真实模型和参数模型(参数 )之间的经验 KL 散度(对观测值求和)和真实 KL 散度(数据分布的积分)。Kn(w)K(w)w

任何人都可以给出解释,或提示我书中的哪个地方有理由吗?谢谢你。

更新:版权内容被删除。

1个回答

要理解渡边的讨论,重要的是要认识到他所说的“奇点”是什么意思。(严格的)奇异性与他理论中奇异度量的几何概念相吻合。

p.10 [渡边]:“统计模型p(xw)如果它是可识别的并且具有正定度量,则称它是正则的。如果统计模型不规则,则称为严格奇异。”

在实践中,奇点通常出现在由模型引起的 Fisher 信息度量在模型定义的流形上退化时,例如“机器学习”工作中的低秩或稀疏案例。

Watanabe关于经验KL散度收敛到其理论值的说法可以理解如下。分歧概念的一个起源来自稳健的统计数据。M-估计器,包括 MLE 作为具有对比函数的特例ρ(θ,δ(X))=logp(Xθ), 通常使用弱拓扑来讨论。在空间上使用弱拓扑讨论收敛行为是合理的M(X)(波兰空间上定义的所有可能度量的多样性X) 因为我们想研究 MLE 的鲁棒性行为。[Huber] 中的一个经典定理指出,具有良好分离的散度函数D(θ0,θ)=Eθ0ρ(θ,δ).

inf|θθ0|ϵ(|D(θ0,θ)D(θ0,θ0)|)>0
以及对散度的对比函数的良好经验近似, 加上正则性,我们可以在意义上产生一致性 的概率 收敛到如果我们在贝叶斯估计量的弱一致性中与 Doob 的结果 [Doob] 进行比较,这个结果需要更精确的条件。
supθ|1niρ(θ,δ(Xi))D(θ0,θ)|0,n
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0

所以这里贝叶斯估计和 MLE 是发散的。如果我们仍然使用弱拓扑来讨论贝叶斯估计量的一致性,那是没有意义的,因为贝叶斯估计量总是(概率为 1)与 Doob 一致。因此更合适的拓扑是施瓦茨分布拓扑,它允许弱导数和冯米塞斯理论发挥作用。Barron 有一个关于这个主题的非常好的技术报告,我们如何使用 Schwartz 定理来获得一致性。

从另一个角度来看,贝叶斯估计量是分布,它们的拓扑应该是不同的。那么散度在那种拓扑中扮演什么样的角色呢?答案是它定义了先验的 KL 支持,这使得贝叶斯估计器具有很强的一致性。D

“奇异学习结果”受到影响,因为如我们所见,Doob 的一致性定理确保贝叶斯估计量在弱拓扑中是弱一致的(即使在奇异模型中),而 MLE 在相同拓扑中应该满足某些要求。

一句话,【渡边】不适合初学者。它对实际分析集有一些深刻的影响,这需要比大多数统计学家更多的数学成熟度,因此在没有适当指导的情况下阅读它可能不是一个好主意。

参考资料

[渡边]渡边,纯男。代数几何和统计学习理论。卷。25. 剑桥大学出版社,2009 年。

[Huber] Huber, Peter J. “非标准条件下最大似然估计的行为”。第五届伯克利数理统计和概率研讨会论文集。卷。1. 1967 年第 1 号。

[Doob] Doob, Joseph L. “鞅理论的应用”。Le calcul des probabilites et ses applications (1949): 23-27.