这是一个非常开放的问题。假设我有两组相同形式的数据样本,比如 [item, rating]。评级是区间 [0,100] 上的值,项目是赋予特定项目的唯一标识符。我想比较这两组数据样本并确定原假设是否成立。
一个警告。我看不到评分分布。这是因为我实际上有数千个组要比较,并且确定每个组的评级分布(正态、双峰等)太耗时了。因此,我可能要比较的组可能具有不同的分布。
天真的方法是假设每个分布都是正态的,并使用类似学生 t 检验的东西来比较组。这是我一直在做的,但我想要更强大的东西。因此,当两组可能具有不同的非正态分布(两组中的元素数量也可能不同)时,如何确定两组的相似/不同?
编辑:该项目真的无关紧要。重要的是每个组的收视率。