受过带标签短语训练的监督推荐系统

数据挖掘 神经网络 阿帕奇火花 推荐系统 监督学习 低密度脂蛋白
2022-02-15 13:28:57

我有大量的短语片段(不是整个片段),其中包含基于文本相似性的用户提供的标签:

train_data (labeled phrase segments): 
"has watched movie" => phraselabel1:"movie watch activity"
"watched with friends X,Y,Z movie" => phraselabel1:"movie watch activity"
"watched show" => phraselabel2: "show watch activity"
"is jobless" => phraselabel3: "lack of job"

input phrase segment: 
"watched movie in the past" => ?? 

output:
recommend ordered set of phrase labels: phraselabel1 then phraselabel3 based on similarity criteria

我想建立一个(可扩展的)实验性推荐系统,找到与输入未标记的短语标签最相似的短语片段,并根据相似性返回最佳标签。标签将由用户最初添加到数据子集,系统将帮助未来用户使用现有标签。

  • 短语标签的数量将远少于短语片段的总数,但比主题/标签更细化

我正在考虑以下方法:

如果您能根据用例阐明哪种方法(从上面或新方法)更好,我将不胜感激。

谢谢 :)

1个回答

CNN-文本分类试试这个。请记住,如果您想要获得良好的准确性,深度学习算法将需要大量数据集。因为你想给用户排序推荐,最后的 soft-max 层会给你这个短语属于所有类的概率,所以你可以按照概率的顺序对标签进行排序,然后将它们推荐给用户。

鉴于您的数据有限,您的第一种方法是最简单和最好的。我认为随着数据的增长,它不会具有很强的可扩展性。此外,只有当您的短语在上下文和词汇方面非常有限时,这种方法才最有效。使用卷积网络,您可以训练更大、更模棱两可的短语并获得良好的预测。