一种简单的方法如下。
对于两个偏好问题,取两个受访者回答之间的绝对差,给出两个变量,比如 z1 和 z2,而不是四个。
对于重要性问题,我可能会创建一个结合两个回答的分数。如果回答是(1,1),我会给一个 1,一个(1,2)或(2,1)得到一个 2,一个(1,3)或(3,1)得到一个3,(2,3) 或 (3,2) 得到 4,而 (3,3) 得到 5。我们称之为“重要性分数”。另一种方法是使用 max(response),给出 3 个类别而不是 5 个,但我认为 5 个类别的版本更好。
我现在要创建十个变量,x1 - x10(为了具体化),所有变量的默认值都为零。对于第一个问题的重要性得分 = 1 的观察,x1 = z1。如果第二个问题的重要性得分也 = 1,则 x2 = z2。对于第一个问题的重要性得分 = 2,x3 = z1 并且如果第二个问题的重要性得分 = 2,x4 = z2 的那些观察,以此类推。对于每个观察,x1、x3、x5、x7、x9 中的一个恰好是 0!= 0,对于 x2、x4、x6、x8、x10 也是如此。
完成所有这些后,我将运行逻辑回归,将二进制结果作为目标变量,x1 - x10 作为回归量。
更复杂的版本可能会通过允许对男性和女性受访者的重要性进行不同的处理来创建更多的重要性分数,例如,a (1,2) != a (2,1),我们已按性别对响应进行排序。
这个模型的一个缺点是你可能对同一个人有多个观察,这意味着“错误”,松散地说,在观察之间不是独立的。但是,由于样本中有很多人,我可能会忽略这一点,作为第一次通过,或者构建一个没有重复的样本。
另一个不足之处是,随着重要性的增加,给定的偏好差异对 p(fail) 的影响也会增加,这意味着 (x1, x3, x5, x7, x9) 的系数和在 (x2, x4, x6, x8, x10) 的系数之间。(可能不是一个完整的排序,因为我先验地不清楚(2,2)重要性得分与(1,3)重要性得分之间的关系。)但是,我们没有在模型中强加这一点。一开始我可能会忽略这一点,看看我是否对结果感到惊讶。
这种方法的优点是它没有对“重要性”和偏好反应之间的差异之间关系的函数形式进行假设。这与之前的不足评论相矛盾,但我认为缺乏一种功能形式可能比相关的未能考虑系数之间的预期关系更有益。