我正在尝试创建一个情绪分析模型,但我有一个问题。
在我预处理了我的推文并创建了我的词汇表后,我注意到我的数据集中出现了少于 5 次的单词(还有很多出现了 1 次)。其中许多是真实的话,而不是胡言乱语。我的想法是,如果我保留这些词,那么它们会得到错误的“感性”权重,并使我的模型变得更糟。我的想法是对的还是我错过了什么?
我的词汇量大约是 40000 个单词,而那些“稀有”的单词大约是 10k。我应该“牺牲”它们吗?
我正在尝试创建一个情绪分析模型,但我有一个问题。
在我预处理了我的推文并创建了我的词汇表后,我注意到我的数据集中出现了少于 5 次的单词(还有很多出现了 1 次)。其中许多是真实的话,而不是胡言乱语。我的想法是,如果我保留这些词,那么它们会得到错误的“感性”权重,并使我的模型变得更糟。我的想法是对的还是我错过了什么?
我的词汇量大约是 40000 个单词,而那些“稀有”的单词大约是 10k。我应该“牺牲”它们吗?
您可以选择第三种选择:使用子词词汇表,而不是丢弃稀有词或将它们冒着稀缺性的风险在训练数据中导致预测不佳。
您可以使用字节对编码 (BPE) 之类的方法来提取子词词汇表,从而消除词汇表外的单词问题并总体上减少数据稀疏性。有规范的 python 实现以及谷歌的流行实现,称为sentencepiece。