非常短句子的 NER 与文本分类

数据挖掘 nlp 文本挖掘
2022-02-27 15:39:54

给定大量短句(大约 20-30 个单词)和多标签任务(大约 100 个标签,每个句子可以到 3 个标签)。

每个注解的位置不是无能为力的(即我只需要知道注解是否包含在句子中)

哪种方法会更有益?使用 NER 模型,每个句子的标记都附有标签,或者样本是整个句子的文本分类。

标签是医生正在做的动作(即“清洁伤口”、“去除皮肤”等)

1个回答

使用 NER(更一般的序列标签)意味着对句子中的每个标记进行分类,因此如果目标只是标记每个句子,那么在您的情况下不需要它。

但是,如果单词的顺序很重要,NER 可能更合适,因为序列标签模型会考虑到它,而传统的文本分类方法通常使用“词袋”表示(顺序无关紧要)。

在某种程度上,它还取决于标签是否总是与句子中的特定术语相关:如果是,那么 NER 可能更擅长定位这些术语(这与关于顺序的观点有关)。如果不是,那么在句子级别进行分类可能会表现得更好。