我有一组与服务的用户交易,我怀疑用户对服务的评价与他们再次使用服务的可能性之间存在很强的相关性。
我选择将用户评分(对于数据集中的每个用户)表示为一个数字 [1-5],它是给定用户过去给出的所有评分的平均值。关于如何表示趋势等还有更多内容,但这不是手头问题的背景。
我的问题是,有大量用户根本没有留下任何评分,我不确定如何与这些用户打交道,为他们找到与评分相关的功能的正确价值。
到目前为止,我尝试的是以不同的方式表示评级,如下所示:
UID rating_high rating_medium rating_low
A 2 0 1
B 0 0 0
其中每个预测变量代表数据集中每个用户在每个评分类别中的评分计数。
在上述情况下,user A有 2 次留下良好评价,1 次留下低评价,从未留下“中等”评价。用户 B 根本没有为服务留下任何评分,因此,他被分配了0所有“评分类别”的计数。
在 1-5 评分等级上,我将所有低于 的评分归3为rating_low,所有等于3asrating_medium的评分以及高于 的评分3为rating_high。
我还没有设法找到任何其他方式来表示这些数据,但我非常不想删除数据集的这一部分,因为我相信它对我的问题具有有价值的语义。
任何关于如何最好地处理这个问题的想法都非常感谢!