如何对具有强偏好和弱偏好的成对偏好进行建模?

机器算法验证 造型 布拉德利特里模型 多重比较
2022-03-24 18:53:38

我的表格中有大量比较数据

在成对比较数据中,每个数据点比较两个备选方案。
例如:
A > B(A 优于 B,A 和 B 是类,而不是数字)
A > B
B > A
B > C
A > C
等...

简而言之,我们可以在数据集中写出偏好的数量:
A vs B 999:1
X vs A 500:500
X vs B 500:500

Bradley-Terry 模型通过为每个类分配参数来模拟成对偏好:

P(A>B|w)=wAwA+wB

可以通过最大似然从数据中估计参数。

我正在寻找能够模拟上述情况的 Bradley-Terry 模型(或全新模型)的扩展。即 A 总是比 B 更受青睐:P(A>B)=0.999P(X<A)=P(X<B)=0.5.

BT 模型不能代表这一点。您对如何创建更好的模型有任何想法吗?

PS该模型将应用于大小的数据108所以最好有简单的最大似然算法。

1个回答

指定一个模型来解决这个问题的困难之一是如何解释偏好信息的强度。A vs B 999:1 是否意味着 1000 人中有 999 次会更喜欢 A,或者,是否意味着一个人相对于 B 更喜欢 A?

如果我们认为数据意味着在 1000 人中 A 优于 B 999,那么您可以拟合 Bradley-Terry(-Luce) 模型,但现在大多数人会改为估计 logit 模型或其泛化,作为他们的“选择模型”:

P(A>B|w)=eAweAw+eBw

使用大型数据集和聚合数据进行最大似然估计很简单,因为样本量作为每对的权重进入对数似然。如果想要考虑人们的偏好如何不同,就会出现复杂情况,在这种情况下,需要某种类型的混合(参见 Train, Kenneth E. (2009), Discrete Choice Methods with Simulation (Second ed.))。剑桥:剑桥大学出版社。)。

研究人员在建模时采用这种频率解释并不是未知的,即使它被认为不是问题的准确表征。这是因为指定一个处理度数的好模型并不是一个简单的练习,因为您必须找到一些方法来计算出 999:1 的确切含义以及它与 998:2 的关系等等。针对这个问题已经开发了许多不同的模型(例如,为常数和因变量设计的模型、为预测概率而设计的模型、扩散模型)。不可能准确地说哪个模型最合适,因为它实际上取决于固有假设对您的数据的适当性以及它与您的数据的拟合程度。