考虑非二进制 logit 是否有意义?

机器算法验证 物流
2022-04-06 22:15:19

考虑嵌套逻辑回归模型的以下解释。

一个人反复在两个不同的选项之间进行选择。这些选项具有不同级别的相同功能(例如汽车特性)。在某些情况下,此人会选择选项 1,在某些情况下,此人会选择选项 2。

逻辑回归的标准公式

P(Y=1|X=xi)=eβxi1eβxi

可以解释为,该人根据效用函数评估选项,将效用组件分配给选项的特征,并选择使效用最大化的选项。因此,在逻辑回归中,我们将估计特征的隐含值。U(xi)βxi

现在假设设置是这样的,这个人不会做出离散的选择。例如,该人可以说这两个选项都具有同等吸引力,选项 1 比选项 2 更有吸引力,或者选项 2 比选项 1 更有吸引力,等等。

因此,我们将计算一个 logit 规范模型,因变量不是 0 或 1,而是在区间内。(0,1)

在数学上可以做到这一点吗?我相信是的。*如果您看一下计算逻辑回归的 ML 过程,则不需要 y 是二分法的,实际上也不需要在的区间内。您可以使用 ML 方法为您想要的任何目标函数拟合回归模型,问题是它是否有意义。它不再完全是逻辑回归,但它可能是不同的,相似的。(0,1)

所以问题仍然存在:这有意义吗?以我描述的方式考虑二元选择问题,并通过假设 y \e (0,1) 来利用偏好的相对权重(如果可用)的附加信息是否有效?是否会更好地利用可用信息,例如在 y ~ 0.5 的情况下,我们知道期权的估值是相似的?

2个回答

在某些情况下,这种事情是有意义的,例如,假设您正在尝试确定某人是否可能会喜欢某种特定的冰淇淋作为配料的函数,那么您可以获取 100 人的样本并让他们品尝每个冰淇淋,并说他们是否喜欢。如果您假设样本来自某个人群,那么是否有任何特定个体喜欢冰淇淋是 Benroulli 试验,概率取决于成分。您可以使用数据集构建模型,每种口味的冰淇淋每个人都有一个模式,或者您可以只为每种冰淇淋创建一个模式,其中喜欢它的主题的比例是喜欢它的小组的比例。无论哪种方式,对数损失都是相同的(直到乘法常数)。

这表明 logit 模型可能适用于对某些概率和某些比例进行建模,只要它们可以被解释为源自某种形式的伯努利实验。

在值介于 0 和 1 之间的情况下,这绝对是有意义的。考虑您是否有具有相同 X 但不同 Y 的训练数据。如果您对这些 X 的 Y 进行平均(并保持这些样本与原始数据集的比例不变),您将获得相同的最佳解决方案。

另一种思考方式是,您的标签本质上是概率性的。例如,您试图用对数线性函数来总结或加速现有的复杂函数。假设您有一个昂贵的 Monte Carlo 模拟解决方案来解决某个问题,并且您想对其进行快速近似。您可以使用模拟生成数据来训练逻辑回归量,而这里您的标签不会正好是 0 或 1。

另一方面,试图预测 [0, 1] 区间之外的结果似乎是错误的,因为它们超出了逻辑函数的域。