深度学习的贝叶斯非参数答案?

机器算法验证 机器学习 贝叶斯 非参数 深度学习
2022-04-05 22:08:38

据我了解,深度神经网络通过将特征分层在一起来执行“表示学习”。这允许在特征中学习非常高维的结构。当然,它是一个具有固定数量参数的参数模型,因此它具有通常的局限性,即模型复杂度可能难以调整。

是否有贝叶斯(非参数)方法来学习特征空间中的此类结构,允许模型复杂性适应数据?相关型号包括:

  • Dirichlet 处理混合模型,它允许将空间划分为无限的集群,允许数据选择有限的数量
  • 像印度自助餐过程(IBP)这样的阶乘模型,它发现了潜在的无限数量的潜在特征(又名主题)来解释数据。

然而,IBP 似乎没有学习深度表示。还有一个问题是这些方法是为无监督学习而设计的,通常我们将深度学习用于监督任务。是否存在 IBP 的变体或其他允许表示随数据需求增长的方法?

2个回答

正如其他答案所指出的,神经网络的常见非参数贝叶斯替代方案是高斯过程(另见此处)。

然而,这种联系远不止于此。考虑称为贝叶斯神经网络(BNN) 的模型类。此类模型类似于常规的深度神经网络,只是网络中的每个权重/参数都有一个描述其值的概率分布一个普通的神经网络有点像 BNN 的一个特例,除了每个权重的概率分布是一个狄拉克 Delta。

一个有趣的事实是,无限宽的贝叶斯神经网络在某些合理的条件下变成了高斯过程。

Neal 的论文,Bayesian Learning for Neural Networks (1995) 在具有 IID 先验的单层网络的情况下展示了这一点。最近的工作(参见Lee 等人,Deep Neural Networks as Gaussian Processes,2018 年)将其扩展到更深的网络。

因此,也许您可​​以将大型 BNN 视为非参数高斯过程模型的近似值。

至于更普遍的问题,人们通常只需要监督学习中的映射,这似乎贝叶斯非参数并不常见(至少目前如此),主要是出于计算原因(这同样适用于 BNN,即使最近取得了进展在变分推理中)。然而,在无监督学习中,它们出现的频率更高。例如:

嗯,我不确定,但也许深高斯过程可能是您正在寻找的一个例子?

深度高斯过程

最近还有关于学者深度高斯过程的工作,但我的知识还不够丰富,无法告诉你读什么书好:

https://scholar.google.de/scholar?as_ylo=2016&q=deep+gaussian+processes&hl=de&as_sdt=0,5&as_vis=1