在推荐器中很常见的是我们有用户产品数据,其标签为例如“点击”。为了学习模型,我需要点击和非点击数据。
最简单的生成方法是获取点击数据中没有的用户产品对。但是,这可能会产生误导。例子:
user1, product1 (click)
user2, product2 (click)
user2, product3 (click)
user3, product2 (click)
我可以将 user1 与除 product1 之外的所有产品一起使用,并将它们标记为“no_click”等等。但这可能不是真的。如果向用户显示 product2,也许 user1 会点击 product2。但仅仅因为他看到了其他的产品集——他没有机会决定点击/不点击产品2。
那么如何解决一元数据问题呢?