我有一个任务,其中输入是一个已解析的文档(即,1 个字符串或标记中的全文),我需要将部分文本分类为 5 个类(即,整个文本中的 5 个标记被标记为 5 个不同的类)。
例子:
文档#1:“... cat ...”(标记“cat”属于“0”类,即动物)
文档#2:“...fish ...”(标记“fish”属于“0”类,即动物)
重要的是要注意,在推理时,我拥有整个文档(文本),因此其中的大多数标记不属于任何类。
什么是完成这项任务的好方法?我想到了一个简单的分类问题,我从每个文档中获取标记的标记并将其输入到 RNN 分类器中,但这会忽略文档的其余部分,并且在测试时,不相关的标记可能比标记的标记具有更大的概率。
我也有一个受 YOLO 启发的想法,可能会在整个文本上应用 1D CNN 对象检测器(具有相应的类数)。这合理吗?
谢谢。