TF-IDF 特征与嵌入层

数据挖掘 喀拉斯 nlp rnn tfidf
2021-09-18 16:47:40

你们是否尝试过将 TF-IDF 特征*与浅层神经网络分类器的性能与深度神经网络模型(如 RNN)进行比较,该模型具有嵌入层,词嵌入作为输入层旁边的权重?我在几个推文数据集上进行了尝试,得到了令人惊讶的结果:TF-IDF 的 f1 得分约为 65%,而 RNN 的 f1 得分约为 45%。我尝试了设置嵌入层 + 浅层全连接层与 TF-IDF + 全连接层,但结果几乎相同。你们能否就 TF-IDF 特征如何优于深度 NN 的嵌入层发表一些意见?这种情况常见吗?谢谢!

  • 我使用 unigrams 和 bigrams 来生成 TF-IDF 特征
1个回答

TFIDF 是一个强大的模型是很常见的。人们在使用 TFIDF 模型的 Kaggle 比赛中不断获得高位。这是使用 TFIDF 作为其功能之一的获胜解决方案的链接(第一名 Otto 产品分类)。如果将 TFIDF 和 RNN 组合到一个集成中,您很可能会得到一个更强大的模型。Kaggle 的其他结果:

https://www.kaggle.com/c/avito-demand-prediction/discussion/56897

很多内核正在使用 CountVectorizer/TF-IDF 走传统路线,一些勇敢的灵魂(我说勇敢是因为训练速度较慢,而且到目前为止结果看起来并不那么壮观)一直在尝试嵌入,根据以前的比赛。