我对最大熵马尔可夫模型 (MEMM) 的概念很感兴趣,我正在考虑将其用于词性 (POS) 标记器。目前,我正在使用传统的最大熵 (ME) 分类器来标记每个单词。这使用了许多功能,包括前面的两个标签。
MEMM 使用 Viterbi 算法通过马尔可夫链找到最佳路径(即为句子找到完整的最佳标签集,而不是为每个单词找到单独的最佳值)。阅读它,这似乎有一种美妙的优雅和简洁。但是,每个阶段仅依赖于前一阶段的“结果”(即根据马尔可夫链)。
但是,我的 ME 模型使用前两个阶段(即前两个单词的标签)。看来我有两种可能的方法:
与传统的维特比实现一样,使用根据一个(前一个)阶段存储的一组路径。我的 ME 分类器将使用这个和之前的“冻结”阶段(冻结到所考虑的路径中)来产生传递函数。
或者我编写算法来跟踪两个阶段。这更加复杂并且不再是真正的马尔可夫模型,因为每个传递函数(即来自 ME 模型)将取决于前两个阶段而不是一个阶段。
我觉得第二个会更准确,尽管它会更复杂。
在我的文献搜索过程中,我还没有找到任何这样的例子。试过了吗?两阶段方法是否提高了整体准确性?