数据挖掘 - 非常短句子的 NER 与文本分类 - 吾爱随笔录

数据挖掘 nlp 文本挖掘

2022-02-27 15:39:54

给定大量短句（大约 20-30 个单词）和多标签任务（大约 100 个标签，每个句子可以到 3 个标签）。

每个注解的位置不是无能为力的（即我只需要知道注解是否包含在句子中）

哪种方法会更有益？使用 NER 模型，每个句子的标记都附有标签，或者样本是整个句子的文本分类。

标签是医生正在做的动作（即“清洁伤口”、“去除皮肤”等）

1个回答

使用 NER（更一般的序列标签）意味着对句子中的每个标记进行分类，因此如果目标只是标记每个句子，那么在您的情况下不需要它。

但是，如果单词的顺序很重要，NER 可能更合适，因为序列标签模型会考虑到它，而传统的文本分类方法通常使用“词袋”表示（顺序无关紧要）。

在某种程度上，它还取决于标签是否总是与句子中的特定术语相关：如果是，那么 NER 可能更擅长定位这些术语（这与关于顺序的观点有关）。如果不是，那么在句子级别进行分类可能会表现得更好。

其它你可能感兴趣的问题