我对训练 POS 标记器的无监督方法感兴趣。
标记非常困难,我想为我的特定域(聊天)测试一个标记器,用户通常用小写字母等书写。如果重要的话,数据主要是德语。
我读过有关 HMM 等旧技术的信息,但也许有更新更好的方法?
我对训练 POS 标记器的无监督方法感兴趣。
标记非常困难,我想为我的特定域(聊天)测试一个标记器,用户通常用小写字母等书写。如果重要的话,数据主要是德语。
我读过有关 HMM 等旧技术的信息,但也许有更新更好的方法?
没有无监督的方法可以训练具有与人工注释或监督方法相似的性能的 POS-Tagger。
没有真正无监督的 POS 标记方法;我们可以把它想象成,词类是由我们推断出来的,规则由被标记的特定语言定义。给定一些文本,没有任何经验上建立的预定义规则,我们可以得出的词性没有数学“概念”(这就是为什么它不是真正无监督的)。
弱监督方法:使用 Baum-Welch 算法估计 HMM 的隐藏状态参数。
另一个是利用 Beam Search 实现最大熵模型,并根据经验建立规则(因此,不是真正的无监督)
幸运的是,对于大多数语言,尤其是德语,您不需要无监督的 PoS 标记方法。有半或“弱”监督的方法,如提到的旧 HMM/EM 方法,但是有新的和非常新鲜的解决方案,带有错误校正输出代码分类:Weakly supervised POS tagging without disambiguation。
当然,像 LSTM 这样的全监督方法的准确性远比半监督方法好得多,但是由于全监督方法的已知问题(例如大量手工工作),人们仍然试图找到惰性方法。卓越的精度总是会导致更高的成本。