对于自然语言处理 (NLP) 任务,通常使用word2vec 向量作为词的嵌入。然而,可能有许多未知词没有被 word2vec 向量捕获,仅仅是因为这些词在训练数据中出现的频率不够高(许多实现在将词添加到词汇表之前使用最小计数)。尤其是来自 Twitter 等文本的情况尤其如此,其中单词经常拼写错误。
在使用长短期 (LSTM) 网络对情绪预测等 NLP 任务进行建模时,应该如何处理这些未知词?我看到两个选项:
- 向 word2vec 字典添加“未知单词”标记。
- 删除这些未知词,使得 LSTM 甚至不知道该词在句子中。
处理这些词的首选方式是什么?