业务问题:我们有两家不同的供应商提供个性化推荐引擎,并希望与他们进行 A/B 测试。该推荐将通过手机上的推送消息为用户提供个性化的报价。在测试期间,我们应该为每个提供商提供一个数据集,其中包含有关客户的不同详细信息(购买历史、应用内事件等)。每个供应商都会收到一个具有相同信息但来自不同客户的数据集。
选择这两个数据集以使它们在客户行为方面相似的最佳方法是什么?
我认为从我们的数据库中给他们随机数据不是一种严格的方法,所以我想到的一个想法是在我们的数据库上应用 dbScan 集群并进一步从每个集群中随机挑选客户端——我不知道这是否是最好的方法。完整的数据库有 200k 个客户端,每个数据集应该包含 5k 个客户端。
示例:在 dbScan 聚类之后有k=10聚类,所以我从每个聚类中随机挑选元素并将它们拆分为 Dataset01 和 Dataset02。
有什么建议么?