数据挖掘 - 如何在信息检索系统中学习不相关的词？ - 吾爱随笔录

如何在信息检索系统中学习不相关的词？

数据挖掘 nlp 推荐系统词嵌入

2022-02-17 23:22:41

现在我的信息检索推荐系统将词嵌入与 Tfidfs 权重一起使用，如下所示：http: //nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/

使用 Tfidf 可以改善结果。但是我有一个问题，不相关的关键字（高频词）仍然有很大的影响。我可以学习一个系统，让它学习要注意哪些词——以无人监督的方式首选吗？

对于使用词嵌入更好的信息检索，您有什么建议？

1个回答

如果您正在使用 TF-IDF，那么试验min_df和max_df参数很重要。我猜你在使用 Python，因为你链接了一个 Python 教程。这是 TF-IDF文档和上述参数的相关文本。

max_df : float in range [0.0, 1.0] or int, default=1.0当构建词汇表时，忽略文档频率严格高于给定阈值的术语（语料库特定的停用词）。如果是float，参数代表文档的比例，整数绝对计数。如果词汇表不是无，则忽略此参数。

min_df : float in range [0.0, 1.0] or int, default=1当构建词汇表时，忽略文档频率严格低于给定阈值的术语。该值在文献中也称为截止值。如果是float，参数代表文档的比例，整数绝对计数。如果词汇表不是无，则忽略此参数。

您可能会在网上找到几条经验法则。他们中的一些人建议在min_df接近 5-7 个文档上使用一个固定数字，在max_df大约 80-85% 上使用一个百分比。甚至可能更低。有了这个，您将能够摆脱垃圾、拼写错误或不需要的标记。请记住，您需要尝试不同的组合才能在模型中获得适当的平衡。

其它你可能感兴趣的问题