要理解渡边的讨论,重要的是要认识到他所说的“奇点”是什么意思。(严格的)奇异性与他理论中奇异度量的几何概念相吻合。
p.10 [渡边]:“统计模型p(x∣w)如果它是可识别的并且具有正定度量,则称它是正则的。如果统计模型不规则,则称为严格奇异。”
在实践中,奇点通常出现在由模型引起的 Fisher 信息度量在模型定义的流形上退化时,例如“机器学习”工作中的低秩或稀疏案例。
Watanabe关于经验KL散度收敛到其理论值的说法可以理解如下。分歧概念的一个起源来自稳健的统计数据。M-估计器,包括 MLE 作为具有对比函数的特例ρ(θ,δ(X))=−logp(X∣θ), 通常使用弱拓扑来讨论。在空间上使用弱拓扑讨论收敛行为是合理的M(X)(波兰空间上定义的所有可能度量的多样性X) 因为我们想研究 MLE 的鲁棒性行为。[Huber] 中的一个经典定理指出,具有良好分离的散度函数D(θ0,θ)=Eθ0ρ(θ,δ).
inf|θ−θ0|≥ϵ(|D(θ0,θ)−D(θ0,θ0)|)>0
以及对散度的对比函数的良好经验近似,
加上正则性,我们可以在意义上产生一致性
的概率
收敛到。如果我们在贝叶斯估计量的弱一致性中与 Doob 的结果 [Doob] 进行比较,这个结果需要更精确的条件。supθ∣∣∣1n∑iρ(θ,δ(Xi))−D(θ0,θ)∣∣∣→0,n→∞
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0
所以这里贝叶斯估计和 MLE 是发散的。如果我们仍然使用弱拓扑来讨论贝叶斯估计量的一致性,那是没有意义的,因为贝叶斯估计量总是(概率为 1)与 Doob 一致。因此更合适的拓扑是施瓦茨分布拓扑,它允许弱导数和冯米塞斯理论发挥作用。Barron 有一个关于这个主题的非常好的技术报告,我们如何使用 Schwartz 定理来获得一致性。
从另一个角度来看,贝叶斯估计量是分布,它们的拓扑应该是不同的。那么散度在那种拓扑中扮演什么样的角色呢?答案是它定义了先验的 KL 支持,这使得贝叶斯估计器具有很强的一致性。D
“奇异学习结果”受到影响,因为如我们所见,Doob 的一致性定理确保贝叶斯估计量在弱拓扑中是弱一致的(即使在奇异模型中),而 MLE 在相同拓扑中应该满足某些要求。
一句话,【渡边】不适合初学者。它对实际分析集有一些深刻的影响,这需要比大多数统计学家更多的数学成熟度,因此在没有适当指导的情况下阅读它可能不是一个好主意。
■参考资料
[渡边]渡边,纯男。代数几何和统计学习理论。卷。25. 剑桥大学出版社,2009 年。
[Huber] Huber, Peter J. “非标准条件下最大似然估计的行为”。第五届伯克利数理统计和概率研讨会论文集。卷。1. 1967 年第 1 号。
[Doob] Doob, Joseph L. “鞅理论的应用”。Le calcul des probabilites et ses applications (1949): 23-27.