短语/标记标签

数据挖掘 机器学习 深度学习 nlp 机器学习模型 语言模型
2022-02-21 12:00:23

寻找有关如何定义以下 NLP 问题以及可以对其建模以利用机器学习的不同方式的建议。我相信有多种方法可以模拟这个问题。基于深度学习的建议也有效,因为有大量数据可用于训练。

将评估给定数据集的不同方法。请分享相关论文、博客或 GitHub 存储库。谢谢!

输入:给定一个包含单词 W1 到 W10 的句子 S。

S = W1 W2 W3 W4 W5 W6 W7 W8 W9 W10

这句话有一些句法和语义模式,但它不是完全自由书写的自然语言,而是用英语写的。这些是单词,可以是标点符号

输出:应该是这样的。

标签1 - W4

标签2 - W3

Label3 - [W2 W1] 连续 // 语义相关。意味着按顺序为单词 [W2 W1] 分配了一个 Label3。对于不按顺序输出的解决方案也可以。

标签4 - [W6 W8]

标签5- W10

噪音 - W7,W9。意味着单词 W7 和 W9 独立地被分配了一个 Label3。

标签7- W5

需要解决问题。寻找有关如何以不同方式定义此问题以利用句子结构中的不同模式的研究/想法。寻找已经在 NLP 中定义的类似任务,例如可以使用的标记标记、解析。

获得有关解决/定义此问题的最新研究的建议将非常有帮助。

1个回答

这看起来像是一个序列标记问题,NLP 中最常见的此类问题是命名实体识别(NER)。

你会发现很多关于 NER 的库和教程。它可以用条件随机场来完成,但现在也有神经方法。

假设您的问题与标准实体(如人名、组织、位置)无关,您需要训练一个自定义的类似 NER 的模型。为此,您需要为您的特定任务注释大量数据。