隐藏条件随机场中的隐藏状态

机器算法验证 机器学习 分类 图像处理
2022-03-19 14:53:15

我正在尝试研究隐藏的条件随机场,但我仍然对这些方法有一些基本问题。如果有人能对大多数关于该主题的论文中使用的符号提供一些澄清,我将不胜感激。

在几篇论文中,最常见的 HCRF 模型形式如下:

p(w|o;θ)=1z(o;θ)sexpΨ(w,s,o;θ)

其中为参数向量,为类标签,为观察序列,为隐藏状态序列,为势函数。但是,我仍然无法弄清楚是什么意思。它只是一个整数序列,还是实际上是图中的一个节点序列?如何实际计算这个总和?θwosΨs

读过的大多数论文只提到每个捕获每个类的某些底层结构(是模型中的隐藏状态集)。但我仍然无法弄清楚这实际上意味着什么。siSS

1个回答

我已经在另一个网站上发布了我的问题,但我也没有收到我正在寻找的答案。我在那里回答了我自己的问题,我决定在这里也回答我自己的问题:在线性链 HCRF 的情况下,隐藏状态序列的计算方式与隐藏马尔可夫模型完全相同。

使用最大团的 HCRF 公式概括了一般隐马尔可夫分类器的大部分结构。隐马尔可夫分类器通常是通过考虑每个可能模型的先验并通过计算其后验概率来估计类标签来构建的。如果我们用一个团势函数来表示每个模型,并将每个势函数限制为一个类标签,我们就可以在 HCRF 中重现这个精确的结构。唯一的区别是 HCRF 中的参数将不受概率限制,因此我们还可以看到,马尔可夫分类器给出的所有可能解决方案只是 HCRF 给出的可能解决方案的一个子集。

顺便说一句,我在原始问题中所指的总和很难以给定的形式计算。由于它表示所有可能路径上的势函数的结果,在线性链的情况下,我们可以通过计算模型中发生的每个状态/转换的概率并将其相乘,而不是尝试直接计算这个总和。通过使用 sum-product 算法在单次通过中沿这些状态/转换的势函数的结果的概率。

该模型也不需要使用 EM 计算。由于它的梯度很容易获得,因此可以使用任何现成的函数优化器来完成这项工作。共轭梯度或随机梯度更新似乎运行得更好,因为它们可以更好地处理违反凸性的问题。

如果我有任何错误,请有人纠正我。到目前为止,我发现有助于理解 CRF 和 HCRF(它们只是具有潜在变量的 CRF)的最佳资源是 C. Sutton 的本教程。我希望它可以对其他有同样问题的人有所帮助。