现在我的信息检索推荐系统将词嵌入与 Tfidfs 权重一起使用,如下所示:http: //nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/
使用 Tfidf 可以改善结果。但是我有一个问题,不相关的关键字(高频词)仍然有很大的影响。我可以学习一个系统,让它学习要注意哪些词——以无人监督的方式首选吗?
对于使用词嵌入更好的信息检索,您有什么建议?
现在我的信息检索推荐系统将词嵌入与 Tfidfs 权重一起使用,如下所示:http: //nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/
使用 Tfidf 可以改善结果。但是我有一个问题,不相关的关键字(高频词)仍然有很大的影响。我可以学习一个系统,让它学习要注意哪些词——以无人监督的方式首选吗?
对于使用词嵌入更好的信息检索,您有什么建议?
如果您正在使用 TF-IDF,那么试验min_df和max_df参数很重要。我猜你在使用 Python,因为你链接了一个 Python 教程。这是 TF-IDF文档和上述参数的相关文本。
max_df : float in range [0.0, 1.0] or int, default=1.0当构建词汇表时,忽略文档频率严格高于给定阈值的术语(语料库特定的停用词)。如果是float,参数代表文档的比例,整数绝对计数。如果词汇表不是无,则忽略此参数。
min_df : float in range [0.0, 1.0] or int, default=1当构建词汇表时,忽略文档频率严格低于给定阈值的术语。该值在文献中也称为截止值。如果是float,参数代表文档的比例,整数绝对计数。如果词汇表不是无,则忽略此参数。
您可能会在网上找到几条经验法则。他们中的一些人建议在min_df接近 5-7 个文档上使用一个固定数字,在max_df大约 80-85% 上使用一个百分比。甚至可能更低。有了这个,您将能够摆脱垃圾、拼写错误或不需要的标记。请记住,您需要尝试不同的组合才能在模型中获得适当的平衡。