数据挖掘 - 短语/标记标签 - 吾爱随笔录

寻找有关如何定义以下 NLP 问题以及可以对其建模以利用机器学习的不同方式的建议。我相信有多种方法可以模拟这个问题。基于深度学习的建议也有效，因为有大量数据可用于训练。

将评估给定数据集的不同方法。请分享相关论文、博客或 GitHub 存储库。谢谢！

输入：给定一个包含单词 W1 到 W10 的句子 S。

S = W1 W2 W3 W4 W5 W6 W7 W8 W9 W10

这句话有一些句法和语义模式，但它不是完全自由书写的自然语言，而是用英语写的。这些是单词，可以是标点符号

输出：应该是这样的。

标签1 - W4

标签2 - W3

Label3 - [W2 W1] 连续 // 语义相关。意味着按顺序为单词 [W2 W1] 分配了一个 Label3。对于不按顺序输出的解决方案也可以。

标签4 - [W6 W8]

标签5- W10

噪音 - W7，W9。意味着单词 W7 和 W9 独立地被分配了一个 Label3。

标签7- W5

需要解决问题。寻找有关如何以不同方式定义此问题以利用句子结构中的不同模式的研究/想法。寻找已经在 NLP 中定义的类似任务，例如可以使用的标记标记、解析。

获得有关解决/定义此问题的最新研究的建议将非常有帮助。