概述
通常,当我想到多个评估者评估多个对象时,我认为“偏差”是特定法官的预期评分与假设的法官群体的平均值之间的平均差异。这是一个相当统计的偏见定义,它不一定对应于日常的偏见定义,这可能还包括未能公正地应用相关标准的概念。
基本思想
考虑到可能有关于这方面的既定文献,这些是我想到的想法:
- 比较每位评委的
平均评分
- 比较每位评委的
标准差或方差
- 法官是否在预期范围内或以与其他法官一致的方式进行区分?
- 对于每位评委,将该评委的评分与所有其他评委的平均值相关联,并将相关性用作该评委评分有效性的指标
- 建立一个模型来预测评委 j 对选手 i 的评分并记录残差;大的绝对残差可以从某些总体评级中排除。该模型可以像 ANOVA 一样简单,通过仅使用主效应(无交互效应)的法官 j 来预测参赛者 i 的响应。
平均方法是我认为的偏见。残差方法将捕获您感兴趣的内容。
R中的基本实现
我在几分钟内解决了这个问题,所以希望没有任何错误(但使用风险自负)。
# Import data
x <- structure(list(contestant = c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L,
2L, 2L, 3L, 3L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L), judge = c(1L,
2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 5L, 1L, 2L,
3L, 4L, 5L), rating = c(83.03, 67.15, 72.05, 86.95, 44, 96.5,
89.9, 84.6, 93.3, 65.15, 88.5, 85.36, 78.95, 88, 52.45, 90.5,
89.85, 85, 94.1, 96.05)), .Names = c("contestant", "judge", "rating"
), class = "data.frame", row.names = c(NA, -20L))
> # Mean: Judge's Mean rating - i.e., bias
round(tapply(x$rating, x$judge, function(X) mean(X)), 1)
1 2 3 4 5
89.6 83.1 80.2 90.6 64.4
这表明法官 5 很严厉,也许法官 1 和 4 可能过于宽容。
> # SD: Judge's SD rating i.e., excessive or insufficient variability in ratings
round(tapply(x$rating, x$judge, function(X) sd(X)), 1)
1 2 3 4 5
5.6 10.8 6.1 3.6 22.8
这表明法官 5 的可变性要大得多,但同样,其他法官的可变性也有很大差异。
> # Correlation
judgecor <- list()
for (i in unique(x$judge)) {
contestant_mean <- tapply(
x[x$judge != i, "rating"], x[x$judge != i, "contestant"],
function(X) mean(X))
judgecor[[as.character(i)]] <- cor(x[x$judge == i, "rating"], contestant_mean)
}
round(unlist(judgecor), 2)
1 2 3 4 5
0.70 0.84 0.96 0.95 0.73
法官 1 和 5 与其他法官的一致性较差。
> # Residuals
fit <- lm(rating~factor(judge)+factor(contestant), x)
xres <- data.frame(x, res=residuals(fit))
xres$absres <- abs(xres$res)
# Overview of problematic ratings
head(xres[order(xres$absres, decreasing=TRUE), ], 5)
contestant judge rating res absres
20 4 5 96.05 22.107 22.107
5 1 5 44.00 -9.479 9.479
15 3 5 52.45 -9.045 9.045
16 4 1 90.50 -8.663 8.663
4 1 4 86.95 7.296 7.296
这显示了在剔除平均参赛者和平均评分者效应后,评分中最大的五个绝对残差。它清楚地表明,相对于其他残差,评委 5 对参赛者 4 的评分是一个极端异常值。