哪些机器学习算法可用于无监督 POS 标记?

数据挖掘 机器学习 nlp 无监督学习 解析
2021-09-22 02:00:24

对训练 POS 标记器的无监督方法感兴趣。

标记非常困难,我想为我的特定域(聊天)测试一个标记器,用户通常用小写字母等书写。如果重要的话,数据主要是德语。

我读过有关 HMM 等旧技术的信息,但也许有更新更好的方法?

4个回答

没有监督的方法可以训练具有与人工注释或监督方法相似的性能的 POS-Tagger。

目前用于训练 POS-Tagger 的最先进的监督方法是长短期记忆 (LSTM) 神经网络

没有真正无监督的 POS 标记方法;我们可以把它想象成,词类是由我们推断出来的,规则由被标记的特定语言定义。给定一些文本,没有任何经验上建立的预定义规则,我们可以得出的词性没有数学“概念”(这就是为什么它不是真正无监督的)。

弱监督方法:使用 Baum-Welch 算法估计 HMM 的隐藏状态参数。

另一个是利用 Beam Search 实现最大熵模型,并根据经验建立规则(因此,不是真正的无监督)

很想听听您在聊天机器人的上下文中需要什么标记器?

也许您只需要一个词干分析器——为变形词生成“基本形式”?

在这种情况下,您可以检查this

幸运的是,对于大多数语言,尤其是德语,您不需要无监督的 PoS 标记方法。有半或“弱”监督的方法,如提到的旧 HMM/EM 方法,但是有新的和非常新鲜的解决方案,带有错误校正输出代码分类:Weakly supervised POS tagging without disambiguation

当然,像 LSTM 这样的全监督方法的准确性远比半监督方法好得多,但是由于全监督方法的已知问题(例如大量手工工作),人们仍然试图找到惰性方法。卓越的精度总是会导致更高的成本。