我读到了递归神经网络,他们可以将文档转换为分布式单词表示。
在新文章推荐的背景下,我正在考虑使用这种模型将所有新闻文章转换为向量,然后向特定用户推荐与他浏览过的新闻文章相似的新闻文章。
在向量空间中,这将归结为找到与给定向量(用户的新闻阅读)“相似”的向量。
该模型在实践中运行良好的可能性有多大?有任何意见和/或建议吗?
我读到了递归神经网络,他们可以将文档转换为分布式单词表示。
在新文章推荐的背景下,我正在考虑使用这种模型将所有新闻文章转换为向量,然后向特定用户推荐与他浏览过的新闻文章相似的新闻文章。
在向量空间中,这将归结为找到与给定向量(用户的新闻阅读)“相似”的向量。
该模型在实践中运行良好的可能性有多大?有任何意见和/或建议吗?
有很多方法可以计算文章之间的相似度。我还没有看到有人进行矢量转换和运行比较。但是,有一种称为“词频/逆文档频率”的文本挖掘策略,这是一种在文档中查找唯一单词和短语的巧妙方法。您可以在多个文档上运行它,并比较提取的关键字以匹配它们以获得推荐。
查看我的电子书了解更多详情:https ://lizrush.gitbooks.io/algorithms-for-webdevs-ebook/content/chapters/tf-idf.html
如果您想在 Web 文档(如博客)上利用此技术,可以使用免费服务:https ://algorithmia.com/recommends
您刚刚描述了矩阵分解模型,它运行良好。事实上,它甚至可以在没有明确功能的情况下工作。即,项目的任何属性。但是您可以通过增加特征向量来引入先验信息,例如,如您所描述的,使用文档嵌入。我看不出它为什么不工作的任何理由,尤其是。因为我已经看到它完成了。