信息性(IVM)和相关性(RVM)向量机有什么区别

机器算法验证 机器学习 贝叶斯 支持向量机
2022-03-26 05:27:02

我试图了解信息性 IVM 和相关性 RVM 之间是否存在任何特定差异,而不是术语。我没有看到任何明确的东西。

当我阅读向量机时,很容易看出 IVM/RVM 与支持 (SVM) 向量机的区别 [通俗地说,对于分类,SVM 找到定义 DMZ(非军事化区域)的那些点(向量) ;-) 在类别之间,而 RVM 发现那些是人群的“中间”,以及相关的人群“大小”(例如高斯球)],但我看不出 I/R 之间有任何特殊区别向量机超出了他们的支持者选择的术语。

有区别吗?

2个回答

RVM 在正则化回归/逻辑回归设置中的权重上放置一个自动相关性确定 (ARD)。(ARD 先验只是高斯随机变量精度的一个弱伽马先验)。将权重边缘化并最大化数据在精度方面的可能性会导致许多精度参数变大,这会将相关的权重推到零。如果您使用由设计矩阵给出的特征向量,则此策略会选择一小组可以很好地预测目标变量的示例。

IVM 策略与 RVM 的策略有着根本的不同。IVM 是一种高斯过程方法,它使用贪心选择标准(基于后验 GP 的熵变化)从训练集中选择一小组点,并将该策略与稀疏点集上的标准 GP 回归/分类相结合.

与 SVM 不同,对于 IVM 和 RVM,相关或信息向量都没有明显的几何解释。基本上,这两种算法都找到了回归/分类问题的稀疏解决方案(SVM 和 IVM 是双重稀疏的,但 RVM 可能应该被认为是原始稀疏的)解决方案,但它们使用不同的方法来做到这一点。

到目前为止,我发现的一些区别隐藏在 Neil Lawrence 的(其中一篇)原始论文中。“A Sparse Bayesian Compression Scheme - The Informative Vector Machine” [Kernel Workshop at NIPS 2001] 有两个版本,一个在 Microsoft 研究网站上,一个在 Laurence 的网站上

在 MS 版本中,有一个额外的语句“所选数据点接近决策边界,与 SVM 共享的特征”。所以我最初认为 IVM 向量代表“中间”的观点是错误的。

另一点是它是一种压缩方案,因为它正在寻找“数据集的稀疏表示”,因此 IVM 还试图保留在分析期间提供最多信息的那些向量,以便它们可以被重复使用,作为数据集并重复任何计算。

当计算量大 O(M^3) 时,这种减小数据集大小的能力很有用

RVM 确实选择了作用于基函数(例如高斯)的“中间”向量(及其权重)(参见Bishop 的“模式识别和机器学习”中的第 7.2 章“相关向量机”)。

好的,所以解释有点像挥手的描述,并不完全完整,但希望它能帮助那些对紧凑矩阵公式不那么放松的人。仍然欢迎更多反馈。