给定大量短句(大约 20-30 个单词)和多标签任务(大约 100 个标签,每个句子可以到 3 个标签)。
每个注解的位置不是无能为力的(即我只需要知道注解是否包含在句子中)
哪种方法会更有益?使用 NER 模型,每个句子的标记都附有标签,或者样本是整个句子的文本分类。
标签是医生正在做的动作(即“清洁伤口”、“去除皮肤”等)
给定大量短句(大约 20-30 个单词)和多标签任务(大约 100 个标签,每个句子可以到 3 个标签)。
每个注解的位置不是无能为力的(即我只需要知道注解是否包含在句子中)
哪种方法会更有益?使用 NER 模型,每个句子的标记都附有标签,或者样本是整个句子的文本分类。
标签是医生正在做的动作(即“清洁伤口”、“去除皮肤”等)
使用 NER(更一般的序列标签)意味着对句子中的每个标记进行分类,因此如果目标只是标记每个句子,那么在您的情况下不需要它。
但是,如果单词的顺序很重要,NER 可能更合适,因为序列标签模型会考虑到它,而传统的文本分类方法通常使用“词袋”表示(顺序无关紧要)。
在某种程度上,它还取决于标签是否总是与句子中的特定术语相关:如果是,那么 NER 可能更擅长定位这些术语(这与关于顺序的观点有关)。如果不是,那么在句子级别进行分类可能会表现得更好。