对于我们在数据科学的期末课程项目,我们提出了以下建议 -
给亚马逊评论数据集,我们计划提出一种算法(大致基于个性化的 PageRank)来确定在亚马逊上投放广告的战略位置。例如,亚马逊上有数百万种产品。数据集让您了解哪些产品是相关的,哪些产品被放在一起,一起查看等等。(我们可以用这个信息构建一个图表)它还为您提供与每个产品相关的评论14年。使用所有这些信息,我们将对亚马逊上的产品进行评级/排名。现在,您是亚马逊上的供应商,想要提高其产品页面的流量。我们的算法可帮助您确定图表中可以放置广告的战略位置,从而获得最大流量。
现在,我们教授的问题是,你将如何在没有真实用户的情况下验证你的算法?我们说-
我们可以为一组固定的用户建模。一些用户比第一跳或第五跳更频繁地关注
also_bought
和also_viewed
链接到第三跳。那里用户的行为是正态分布的。其他一些用户几乎无法导航超过第一跳。这组用户的行为呈指数分布。
我们的教授说 - 无论用户遵循何种分布,用户都在使用类似产品的链接进行导航。您的排名算法还考虑了 b/w 2 产品的相似性来对产品进行排名。所以使用这个验证算法有点cheating
。伴随一些其他的用户行为,一些更现实的和与算法正交的东西。
关于如何建模用户行为的任何想法?我很高兴提供有关算法的更多详细信息。