假设我们有一个模型来研究钠摄入量和体脂水平之间的关系。所以是一个序数变量,可以从中获取整数值。它是根据体脂水平的增加来排序的(例如“没有体脂增加”、“很少体脂增加”和“大量体脂增加”)。
序数概率模型究竟做了什么?我绘制了数据。那么序数概率模型是否试图通过数据点拟合一条线?
假设我们有一个模型来研究钠摄入量和体脂水平之间的关系。所以是一个序数变量,可以从中获取整数值。它是根据体脂水平的增加来排序的(例如“没有体脂增加”、“很少体脂增加”和“大量体脂增加”)。
序数概率模型究竟做了什么?我绘制了数据。那么序数概率模型是否试图通过数据点拟合一条线?
使用 OP 的原因是研究有序的分类变量,但实际值仅反映排名。例如,以债券评级为例。有一个未被观察到的潜在变量称为信誉度,一些机构已将其划分为多个箱,范围从 AAA、AA、A、BBB 等到 D。您可以想象将这些编码为 12、11、10 ......现在AAA比AA好,AA比A好,但两者的区别并不等价。在您的情况下,AAA 就像“强劲增长”,而 D 是“没有增长”。
这种未观察到的信用度(或 BF 增长)是解释变量(如钠)和参数和正态分布误差的函数。每个债券评级对应于特定的信用范围。这些范围不一定是相同的长度。假设一家公司现在处于 AA 并且变得更有信誉。最终,它将越过 AA 和 AAA 之间的边界,公司将获得新的排名。有序概率将使用 MLE 估计参数,以及定义信用等级的边界值(也称为割值)。
参数的解释有点棘手,因为它们只能按比例识别。比较两个参数的比率来决定哪个更重要是相当容易的。对于更复杂的练习,您还可以获取相邻切割值的差异并除以钠斜率。这告诉您移动到下一个垃圾箱所需的钠的最大变化。或者,您还可以查看特定垃圾箱中导致钠变化的概率变化。
*如果错误具有逻辑分布,您将使用有序 logit 而不是 probit。