假设您有两个要评估的推荐系统,A
并且B
。A
使用大数据训练模型,使用小数据进行模型训练B
(这意味着A
将有更大的项目池可供选择)。
你会如何比较这两个模型?一种策略是在两个模型都受到其数据集(“A”与大数据,“B”与小数据)以 80/20 分割的情况下计算精度和召回率,然后计算精度和召回率。但是,我不确定在这种情况下精度和召回结果是否具有可比性。你怎么看?
另一种方法是A
使用大数据进行训练,B
使用小数据进行训练,但要修复测试集(意思是,测试集对于A
和都是相同的B
)。但这不是“不公平”吗,因为该模型A
是基于大数据的,因此有更多的项目可供推荐?
你会如何比较这两个模型?