假设我们有一个因变量有几个类别和一组自变量。
多项式逻辑回归相对于二元逻辑回归集(即one-vs-rest 方案)有哪些优势?通过一组二元逻辑回归,我的意思是对于每个类别我们建立单独的二元逻辑回归模型,目标=1,当否则为 0。
假设我们有一个因变量有几个类别和一组自变量。
多项式逻辑回归相对于二元逻辑回归集(即one-vs-rest 方案)有哪些优势?通过一组二元逻辑回归,我的意思是对于每个类别我们建立单独的二元逻辑回归模型,目标=1,当否则为 0。
如果有两个以上的类别,如果您旨在比较模型的参数,您关于一个回归相对于另一个回归的“优势”的问题可能毫无意义,因为模型将根本不同:
对于每个 二元逻辑回归,和
对于每个多元逻辑回归中的类别,是选择的参考类别()。
但是,如果您的目标只是预测每个类别的概率任何一种方法都是合理的,尽管它们可能会给出不同的概率估计。估计概率的公式是通用的:
, 在哪里是所有类别,如果被选为参考之一. 因此,对于二元逻辑,相同的公式变为. 多项式逻辑依赖于(并不总是现实的)不相关备选方案独立性的假设,而一系列二元逻辑预测则不然。
一个单独的主题是多项式和二元逻辑回归之间的技术差异,以防万一是二分法的。结果会有什么不同吗?大多数情况下,在没有协变量的情况下,结果是相同的,但算法和输出选项仍然存在差异。让我在 SPSS 中引用关于该问题的 SPSS Help:
二元逻辑回归模型可以使用逻辑回归过程或多项逻辑回归过程进行拟合。每个程序都有其他程序没有的选项。一个重要的理论区别是逻辑回归过程使用个案级别的数据生成所有预测、残差、影响统计和拟合优度检验,而不管数据如何输入以及协变量模式的数量是否小于案例总数,而多项 Logistic 回归过程在内部聚合案例以形成具有相同协变量模式的预测变量的亚群,基于这些亚群产生预测、残差和拟合优度检验。
逻辑回归提供以下独特功能:
- Hosmer-Lemeshow 模型拟合优度检验
- 逐步分析
- 对比定义模型参数化
- 分类的替代切点
- 分类图
- 模型安装在一组案例到一组外置案例
- 保存预测、残差和影响统计
多项 Logistic回归提供以下独特功能:
- 模型拟合优度的 Pearson 和偏差卡方检验
- 用于拟合优度检验的数据分组的亚群规范
- 按亚群列出计数、预测计数和残差
- 修正过度分散的方差估计
- 参数估计的协方差矩阵
- 参数的线性组合测试
- 嵌套模型的显式规范
- 使用差异变量拟合 1-1 匹配的条件逻辑回归模型
由于标题,我假设“多元逻辑回归的优点”是指“多项回归”。当模型同时拟合时,通常会有优势。Agresti (Categorical Data Analysis, 2002) 第 273 页中描述了这种特殊情况。总而言之(解释 Agresti),您期望联合模型的估计值与分层模型不同。单独的逻辑模型往往具有较大的标准误差,尽管当将结果的最频繁水平设置为参考水平时它可能不会那么糟糕。
我认为之前的答案并没有真正抓住关键差异,尽管它隐含在无关替代方案的独立性(这是一个社会科学术语而不是统计术语)的讨论中。
如果您使用多项式模型,那么您对不同选项的预测总和为 1;如果您使用 n 个不同的逻辑回归模型,它们不会。
当有一组固定的类并且它们是互斥的时,首选多项式模型。
例如,如果:“对于每个人预测某个手机公司是最喜欢的手机公司的概率(假设每个人都有最喜欢的手机公司)。您会使用哪种方法,与第二种方法相比有什么优势?”
如果您认为有一组固定不变的电话公司,那么多项回归将是合适的。相反,如果您例如预测前 3 名(固定),但也有一些您没有建模的小公司,那么我建议前 3 名公司的 1 vs rest 是合适的(因为前 3 名不包括100% 的受访者)
似乎问题根本不在于(a)softmax(多项逻辑)回归模型和(b)基于多个二元逻辑回归模型的OvR“复合”模型之间的实现/结构差异。然而,简而言之,跳过所有公式,这些差异可以总结如下:
似乎也没有必要解释二进制、OvR/OvO“复合”模型和“原生”多标签分类器(如多项逻辑回归器(又名 softmax 回归器))之间的区别。
我认为问题更多是关于准确性:
在设置类之间的线性决策边界时,softmax 回归(LogisticRegression(multi_class="multinomial")
在 scikit-learn 中)更加灵活。这是一个二维三类说明:
https ://scikit-learn.org/stable/auto_examples/linear_model/plot_logistic_multinomial.html
上面的例子确实可以从混淆矩阵中受益,所以在这里它们是(标准化的):
这不是一个硬分类问题——三个类的实例几乎没有混合,所以我们应该期望所有类的准确率都很高。但是 OvR Logit 在识别“中产”阶层时会遇到困难。一般来说,当仅通过特征值对某些类别的区分度较低时,OvR Logit 的表现会很差。它只喜欢“前卫”的课程。
对于二元分类,与 Softmax/多项式相比,这并不是一个缺点,因为后者还在两个类之间设置了线性边界。
或者想象三个彼此距离大致相同的集群(即每个类集群都在等边三角形的顶点上)。在这种情况下,OvR Logit 和 Softmax 的准确度对所有类都很好。
然而,想象三个集群中的一个位于或接近其他两个集群的中心之间的直线...... OvR Logit 对于那个“中”类的准确性会很差。Softmax/多项式回归器会做得很好(即使它的决策边界仍然是直线)。