数据挖掘 - TF-IDF 特征与嵌入层 - 吾爱随笔录

TF-IDF 特征与嵌入层

数据挖掘喀拉斯 nlp rnn tfidf

2021-09-18 16:47:40

你们是否尝试过将 TF-IDF 特征*与浅层神经网络分类器的性能与深度神经网络模型（如 RNN）进行比较，该模型具有嵌入层，词嵌入作为输入层旁边的权重？我在几个推文数据集上进行了尝试，得到了令人惊讶的结果：TF-IDF 的 f1 得分约为 65%，而 RNN 的 f1 得分约为 45%。我尝试了设置嵌入层 + 浅层全连接层与 TF-IDF + 全连接层，但结果几乎相同。你们能否就 TF-IDF 特征如何优于深度 NN 的嵌入层发表一些意见？这种情况常见吗？谢谢！

我使用 unigrams 和 bigrams 来生成 TF-IDF 特征

1个回答

TFIDF 是一个强大的模型是很常见的。人们在使用 TFIDF 模型的 Kaggle 比赛中不断获得高位。这是使用 TFIDF 作为其功能之一的获胜解决方案的链接（第一名 Otto 产品分类）。如果将 TFIDF 和 RNN 组合到一个集成中，您很可能会得到一个更强大的模型。Kaggle 的其他结果：

第二名：https ://www.kaggle.com/c/stumbleupon/discussion/6184
第 4 名：https ://www.kaggle.com/c/avito-demand-prediction/discussion/59881
第三名：https ://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/discussion/52762

https://www.kaggle.com/c/avito-demand-prediction/discussion/56897：

很多内核正在使用 CountVectorizer/TF-IDF 走传统路线，一些勇敢的灵魂（我说勇敢是因为训练速度较慢，而且到目前为止结果看起来并不那么壮观）一直在尝试嵌入，根据以前的比赛。

其它你可能感兴趣的问题

上一篇Z 分数的标准偏差下一篇在将它们组合起来进行多任务学习之前，我应该重新调整损失吗？