目前正在研究简历解析器,并努力在其中嵌入带有“-”符号的单词。比如“IT经理”。
这些词的向量表示被 doc2vec 错误地分类。
['it-manager'] [('salary', 0.23328335583209991), ('responsibilites', 0.22327110171318054), ('schedule', 0.14869527518749237), ('position', 0.12755176424980164)]
但是当我删除“-”符号时,它被标记化并正确分类。
['it', 'manager'] [('position', 0.9306046962738037), ('schedule', 0.6630333662033081), ('responsibilites', 0.6081600189208984), ('salary', 0.5934453010559082)]
您如何正确处理此类数据?对于这种任务,我想,最好排除符号。但是可能有一种方法可以告诉 Doc2vec 将这些词视为两个不同的词。或者也许告诉 word_tokenizer 以这种方式标记它们?