我正在创建一个推荐系统并考虑两种并行的方式来形式化问题。一个经典的,使用接近度(如果最近的 2k+1 个客户的多数票拥有该产品,则向客户推荐该产品),另一个我难以理解但在某种程度上似乎有效的另一个。
我正在考虑的方法是:
1) 为分类任务拟合一个高度正则化的神经网络(以确保它不会过度拟合训练集),该分类任务可以预测该人是否有给定产品
2) 确保测试准确度尽可能接近训练准确度
3) 以对整个数据集(以及训练集)预测的误报(最初没有产品但 NN 预测他们拥有产品的客户)作为结果——我应该向这些人推荐产品
现在,我知道为什么一般人不想采用这种方法,但我也无法准确解释为什么它不会让“应该”以类似方式提供产品的人“靠近”彼此感觉就像基于 KNN 的方法。我不确定如何准确分析这个问题以完全验证、修改或拒绝这个想法。