无似然推理——这是什么意思?

机器算法验证 机器学习 深度学习 最大似然 生成模型 近似贝叶斯计算
2022-02-15 16:44:08

最近,我开始意识到文献中流行的“无可能性”方法。但是,我不清楚推理或优化方法无可能性意味着什么。

在机器学习中,目标通常是最大化某些参数拟合函数的可能性,例如神经网络上的权重。

那么,无可能性方法的哲学究竟是什么,为什么对抗性网络(如 GAN)属于这一类?

4个回答

有很多不基于统计可能性的方法示例(我不了解机器学习)。一些例子:

  1. Fisher 的纯显着性检验仅基于明确定义的零假设(例如,在女士品茶实验中先牛奶和后牛奶之间没有差异。该假设导致零假设分布,然后是 p 值。不涉及可能性。这种最小的推理机制本身不能为功效分析(没有正式定义的替代方案)或置信区间(没有正式定义的参数)提供基础。

  2. 与 1. 相关的是随机化测试随机化测试和排列测试之间的区别,其最基本的形式是纯显着性测试。

  3. 自举是在不需要似然函数的情况下完成的。但是与可能性的想法有联系,例如经验可能性

  4. 基于等级的方法通常不使用可能性。

  5. 许多强大的统计数据。

  6. 中位数(或其他分位数)的置信区间可以基于顺序统计。计算中不涉及可能性。中位数的置信区间,经验中位数方差的 最佳估计量

  7. Vapnik 有转导学习的想法,这似乎与黑天鹅塔勒布和黑天鹅中讨论的https://en.wikipedia.org/wiki/Epilogism有关。

  8. 在《数据分析和近似模型》一书中, Laurie Davis 建立了一个将统计模型作为近似值的系统理论,置信区间被近似区间所取代,并且没有分布的参数族,没有只有等等。而且没有任何可能。N(μ,σ2)N(9.37,2.122)

在你得到一个似然函数的那一刻,有一个巨大的机器可以建立。贝叶斯不能没有,大多数其他人在大多数情况下确实使用可能性。但是在评论中指出,即使是贝叶斯主义者也试图不这样做,请参阅 Approximate_Bayesian_computation甚至还有关于该主题的新文本。

但它们来自哪里?为了以通常的方式获得似然函数,我们需要很多难以证明的假设。

有趣的是,我们是否可以以某种方式从这些无似然的方法中构造似然函数。例如,上面的第 6 点,我们可以根据订单统计计算的(一系列)置信区间构造中位数的似然函数吗?我应该把它作为一个单独的问题问......

你关于 GAN 的最后一个问题我必须留给其他人。

具体来说,[最近的] 无似然方法是对 ABC 算法的改写,其中 ABC 代表近似贝叶斯计算这旨在涵盖不需要使用封闭式似然函数但仍打算研究特定统计模型的推理方法。它们没有与可能性相关的计算困难,但没有产生这种可能性的模型。参见例如

  1. 格劳德,A;马林,JM;罗伯特,C;鲁道夫,F;理货,F (2009)。“吉布斯随机场中模型选择的无似然方法”。贝叶斯分析。3:427-442
  2. 拉特曼,O;安德烈,C;维夫,C;理查森,S(2009 年)。“基于无似然推理的模型批评,应用于蛋白质网络进化”。美国国家科学院院刊。106:10576-10581
  3. Bazin, E., Dawson, KJ 和 Beaumont, MA (2010)。贝叶斯层次模型中人口结构和局部适应的无似然推断。遗传学,185(2),587-602
  4. 迪德洛特,X;埃弗里特,RG;约翰森,上午;劳森,DJ (2011)。“模型证据的无可能性估计”。贝叶斯分析。6:49-76
  5. Gutmann, M. 和 Corander, J. (2016) 基于模拟器的统计模型的无似然推断的贝叶斯优化 机器学习研究杂志

为了增加一连串的答案,渐近统计实际上没有可能性。

这里的“可能性”是指数据的概率模型。我可能不在乎这个。但是我可能会找到一些简单的估计量,比如平均值,这是对数据的充分总结,我想对分布的平均值进行推断(假设它存在,这通常是一个合理的假设)。

根据中心极限定理,当方差也存在时,均值在大 N 中具有近似正态分布。我可以创建大小正确的一致测试(当 null 为假时,当 N 变为无穷大时,幂变为 1)。虽然我有一个概率模型(这是错误的),用于有限样本大小的平均值的抽样分布,但我可以获得有效的推断和无偏估计,以增强我的“有用的数据摘要”(平均值)。

应该注意的是,基于 95% CI 的中位数测试(即@kjetilbhalvorsen 答案中的选项 6)依赖于中心极限定理来证明它们是一致的。因此,将简单的 T 检验视为“非参数”或“非基于似然”的检验并不疯狂。

在机器学习方面:在机器学习中,您通常会尝试最大化,其中是目标,是输入(例如,x 可能是一些随机噪声,y 可能是图像)。现在,我们如何优化它?一种常见的方法是假设如果我们假设这一点,它会导致均方误差。注意,我们假设的形式。但是,如果我们不假设任何特定分布,则称为无似然学习。p(y|x)xyp(y|x)=N(y|μ(x),σ)p(y|x)

为什么 GAN 会属于这个范围?好吧,Loss函数是一个神经网络,这个神经网络不是固定的,而是联合学习的。因此,我们不再假设任何形式(除了属于分布族,可以由判别器表示,但出于理论原因,我们说它无论如何都是通用函数逼近器)。p(y|x)