有一段时间,Fisher Kernels似乎会变得流行,因为它们似乎是一种从概率模型构建内核的方法。但是,我很少看到它们在实践中使用,而且我有充分的权威表明它们往往不能很好地工作。他们依赖于费雪信息的计算——引用维基百科:
Fisher信息是f的自然对数θ的二阶导数期望的负值。信息可被视为对 θ 的最大似然估计 (MLE) 附近的支持曲线的“曲率”的度量。
据我所知,这意味着两点之间的核函数就是沿着这个曲面的距离——对吗?
然而,这对于在内核方法中使用可能是有问题的,因为
- 对于给定模型,MLE 可能是一个非常糟糕的估计
- MLE 周围的支持曲线的曲率可能无法用于区分实例,例如,如果似然面非常尖
- 这似乎丢掉了很多关于模型的信息
如果是这种情况,是否有任何更现代的方法可以从概率方法构造内核?例如,我们可以使用保留集以同样的方式使用 MAP 估计吗?概率方法中的距离或相似性还有哪些其他概念可以用来构建(有效的)核函数?