选择正确的 NLP 模型来标记数据集中的单词

数据挖掘 机器学习 nlp
2021-10-02 02:39:38

正如标题所示,我在这里发帖是希望有人可以指导我使用 NLP 模型来标记单词。

更具体地说,这就是我想做的事情。我想使用可以标记/分类单词的 NLP 模型构建一个抽认卡应用程序。所以让我们想象一下,我有一个 CSV 文件,其中包含一个问题(英文)和一个答案(法文):

+----------------------------
| plane       | avion       |
+-------------+-------------+
| chopsticks  | baguettes   |
+-------------+-------------+
| airport     | aéroport    |
+-------------+-------------+

这个想法是学习者会选择一个上下文甲板(在这个例子中,一个与飞机旅行相关的甲板)。该套牌将由机器学习算法制作的标签“机场”生成。

因此,我应该寻找任何好的模型吗?

编辑:

经过大量研究,我遇到了 NLU,它满足了我上面描述的许多要求。如果您有兴趣,请查看这些链接:什么是 NLP 技术来概括文本中手动创建的规则?NLP 算法,用于对具有特定主题的单词列表进行分类,以及这个 repo:Probase-Concept

2个回答

为了生成与同一主题相关的单词列表,我的第一个想法是获取大量(单语)文本,应用主题建模,然后按主题收集随机的热门词。

您可以查看序列到序列模型。这些模型可用于“翻译”文本。Keras 中有一个很好的示例,您可以在其中立即为English -> French.

这个例子演示了如何实现一个基本的字符级循环序列到序列模型。我们将其应用于将英语短句逐个字符翻译成法语短句。请注意,进行字符级机器翻译是相当不寻常的,因为单词级模型在该领域更为常见。

另请注意这篇博文“Keras 中序列到序列学习的十分钟介绍”