如何在没有复杂公式的情况下在 R 中拟合 Bradley-Terry-Luce 模型?

机器算法验证 r 物流 分类数据 配对数据 布拉德利特里模型
2022-03-24 05:32:07

Bradley-Terry-Luce(BTL) 模型指出pji=logit1(δjδi), 在哪里pij是对象的概率j被判断为比对象“更好”、更重等i, 和δi, 和δj是参数。

这似乎是 glm 函数的候选者,family = binomial。但是,公式类似于“Success ~ S1 + S2 + S3 + S4 +...”,其中 Sn 是一个虚拟变量,如果对象 n 是比较中的第一个对象,则为 1,如果是,则为 -1第二个,否则为 0。那么 Sn 的系数将是相应的deltan.

只需几个对象,这将相当容易管理,但可能导致公式很长,并且需要为每个对象创建一个虚拟变量。我只是想知道是否有更简单的方法。假设被比较的两个对象的名称或编号是变量(因素?)Object1和Object2,如果判断对象1更好,则Success为1,如果对象2更好,则为0。

1个回答

我认为 R 中配对比较(PC)数据的最佳包是prefmod 包,它允许方便地准备数据以适应 R 中的(对数线性)BTL 模型。它使用泊松 GLM(更准确地说,泊松中的多项式 logit公式见例如这个讨论)。

好消息是它具有prefmod::llbt.design自动将您的数据转换为必要的格式和必要的设计矩阵的功能。

例如,假设您有 6 个对象全部成对比较。然后

R> library(prefmod)
R> des<-llbt.design(data, nitems=6)

将从如下所示的数据矩阵构建设计矩阵:

P1  0  0 NA  2  2  2  0  0  1   0   0   0   1   0   1   1   2
P2  0  0 NA  0  2  2  0  2  2   2   0   2   2   0   2   1   1
P3  1  0 NA  0  0  2  0  0  1   0   0   0   1   0   1   1   2
P4  0  0 NA  0  2  0  0  0  0   0   0   0   0   0   2   1   1
P5  0  0 NA  2  2  2  2  2  2   0   0   0   0   0   2   2   2
P6  2  2 NA  0  0  0  2  2  2   2   0   0   0   0   2   1   2

行表示人,列表示比较,0 表示未决定 1 表示首选对象 1,2 表示首选对象 2。允许缺失值。编辑:因为这可能不是简单地从上面的数据推断出来的,所以我在这里拼出来。必须按以下方式对比较进行排序((12) 表示比较对象 1 与对象 2):

(12) (13) (23) (14) (24) (34) (15) (25) etc. 

拟合比使用该gnm::gnm功能最方便,因为它允许您进行统计建模。(编辑:您也可以使用该prefmod::llbt.fit函数,它更简单一些,因为它只需要计数和设计矩阵。)

R> res<-gnm(y~o1+o2+o3+o4+o5+o6, eliminate=mu, family=poisson, data=des)
R> summary(res)
  Call:
gnm(formula = y ~ o1 + o2 + o3 + o4 + o5 + o6, eliminate = mu, 
    family = poisson, data = des)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-7.669  -4.484  -2.234   4.625  10.353  

Coefficients of interest:
   Estimate Std. Error z value Pr(>|z|)    
o1  1.05368    0.04665  22.586  < 2e-16 ***
o2  0.52833    0.04360  12.118  < 2e-16 ***
o3  0.13888    0.04297   3.232  0.00123 ** 
o4  0.24185    0.04238   5.707 1.15e-08 ***
o5  0.10699    0.04245   2.521  0.01171 *  
o6  0.00000         NA      NA       NA    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for poisson family taken to be 1)

Std. Error is NA where coefficient has been constrained or is unidentified

Residual deviance: 2212.7 on 70 degrees of freedom
AIC: 2735.3

请注意,消除项将在摘要中省略令人讨厌的参数。然后,您可以获得价值参数(您的增量)为

## calculating and plotting worth parameters
R> wmat<-llbt.worth(res)
        worth
o1 0.50518407
o2 0.17666128
o3 0.08107183
o4 0.09961109
o5 0.07606193
o6 0.06140979

你可以用

R> plotworth(wmat)

如果您有很多对象并且想o1+o2+...+on快速编写公式对象,您可以使用

R> n<-30
R> objnam<-paste("o",1:n,sep="")
R> fmla<-as.formula(paste("y~",paste(objnam, collapse= "+")))
R> fmla
y ~ o1 + o2 + o3 + o4 + o5 + o6 + o7 + o8 + o9 + o10 + o11 + 
    o12 + o13 + o14 + o15 + o16 + o17 + o18 + o19 + o20 + o21 + 
    o22 + o23 + o24 + o25 + o26 + o27 + o28 + o29 + o30

生成公式gnm(您不需要llbt.fit)。

有一篇JSS 文章,另请参阅https://r-forge.r-project.org/projects/prefmod/和文档?llbt.design