使用很少的标签和仅来自一类的标签来预测正面/负面体验

数据挖掘 阶级失衡
2022-03-01 23:36:39

我有视频观看数据(会话时长、视频的 nb 等),以及用户是否点击了类似按钮。我们可以使用点赞按钮来确认用户有积极的观看体验,然而,只有 0.1% 的用户点击了这个按钮。我想找到一种方法来找到与喜欢视频的人具有相似数据的用户,而无需让他们明确点击喜欢按钮。

我曾想过让 like 变量成为二元分类问题中的响应变量,但是,不喜欢视频并不意味着负面体验。

我还考虑将其视为一项无人监督的任务,我会查看喜欢的会话是否自然地落入特定的集群中。

编辑: 我没有说清楚,但该服务类似于 Youtube,我们试图确定用户在点击视频后是否有积极的观看体验。目前,没有推荐引擎,这是构建推荐引擎的第一部分。

编辑:在回答之后,我更倾向于将此任务作为无监督学习任务来处理,而不是有监督。

任何想法如何解决这个问题?谢谢

2个回答

这不是数据科学解决方案,但用户首先观看视频(花时间查找和定位视频,然后开始播放视频)这一事实并不意味着用户对该特定视频有兴趣超过从未与视频互动过的用户?我会考虑这样一个事实,即该条目作为积极响应存在,缺乏“喜欢”作为中性响应,以及(也许?)缺乏将其视为消极响应。当然,它在很大程度上取决于数据集的来源和假设。

尽管如此,我同意在这种情况下将视频与喜欢进行聚类是一个很好的起点,这绝对是我的第一个直觉。

喜欢视频并不是表明观众希望看到更多此类视频的唯一信号。

将点赞作为数据集另一个特征。也许,给它更多的重量。但它们也是其他重要的功能。这些可以是 - 用户观看视频的时间量,观看总时间的比例,在此之前观看了哪个视频,接下来观看的是哪个视频,视频字幕中的文本转换为数字向量,标题中的文字和视频的描述等等。

收视率也可以归因于标题和描述,因为它们清楚地传达了视频的内容。如果 7/10 的人观看了描述枪支法的视频,那么在观看了有关大规模枪击事件的视频之后,您就知道该推荐什么了。