我想将隐马尔可夫模型用于无监督序列标记问题。由于我的应用程序领域的特殊性(识别对话中的对话行为),我想为每个状态使用多个发射(即多个特征)。因此,从图形上看,该模型将如下所示:
隐藏状态和观察变量都是离散的。排放概率假设是独立的,并通过标准分类分布建模。
我的问题如下:是否有任何公开可用的工具包或算法可以让我通过 Baum-Welch 的变体来学习这种类型的多重发射 HMM 的参数?据我所知,经典 HMM 工具包支持的唯一多重发射类型似乎是多元高斯,但我找不到关于上述类型的独立分类分布的任何信息。
当然,我知道我可以通过将每个观察值视为值向量(该向量中的每个维度对应于特定特征)并通过经典 Baum-Welch 估计该向量空间上的发射概率来“绕过”这个问题,但这会引入很多不必要的数据稀疏性。
有没有人有解决这个问题的建议?我敢肯定,我不是第一个尝试将 HMM 应用于具有多种特征的无监督学习的人!(或者也许我应该使用另一种类型的模型?我也考虑过使用 CRF,但它们似乎更难以应用于无监督学习问题)。