predict_proba 比较

数据挖掘 分类 线性回归
2022-02-17 14:32:48

我想预测单个 credit_balance 大于值 N 的概率为真

我需要比较 3 种分类方法:逻辑回归、最小判别和二次判别。

对于每个具有不同值的样本预测predict_proba,我如何确定哪个模型最适合我的预测?

  1. 线性回归predict_proba结果为[[0.93227393 0.06772607]]
  2. LDApredict_proba[[0.94144572 0.05855428]]
  3. QDAprecit_proba[[9.99999999e-01 1.24419207e-09]]

我们应该查看哪些参数来决定哪种分类最适合预测模型?

1个回答

您需要退后一步,以决定哪种模型最适合您的用例。在执行此操作之前,predict_proba 对计算类标签的后验概率绝对很重要,但它不适用于与其他模型输出进行比较(尤其是决定哪些模型最适合您的预测)。

逻辑回归、QDA 和 LDA 都有不同的方法。逻辑回归基于最大似然估计,而 LDA 和 QDA 基于贝叶斯定理。要了解哪个分类器最适合您的模型,我们需要检查假设(假设您知道数学表达式),然后您可以判断哪个最适合您。


1. 逻辑回归

在逻辑回归中,可以直接获得特定观察 (X=x) 的类别 (Y=k) 的观察概率。没有什么可以假设为分类运行逻辑回归。它通常是一种安全的方法,并不紧急且稳健。


2. LDA & QDA

LDA 和 QDA 算法基于贝叶斯定理,观察的分类通过以下两个步骤完成。

  • 确定每个类(或组 ex Y=k1、k2、k3 等)的输入 X 的分布
  • 使用贝叶斯定理翻转分布以计算概率 Pr(Y=k|X=x)

以下是 LDA 和 QDA 所需的假设:

  1. LDA 假设:
    • 所有响应类的共同协方差 σ2(对于 k1、k2、k3 响应类,例如 σk1 = σk2 = σk3)
    • 每个响应类中的观察分布是正态的,具有特定于类的平均值 (µk) 和共同协方差 σ。
  2. QDA 假设:
    • 每个响应类的不同协方差。例如 – σk1、σk2、σk3 用于响应类 k1、k2、k3 等。
    • 每个响应类中的观察分布是正态的,具有特定于类的平均值 (µk) 和特定于类的协方差 (σk2)。

笔记:

  • 当分类器之间需要线性边界时,使用 LDA(线性判别分析)。
  • QDA(二次判别分析)用于找到分类器之间的非线性边界。
  • LDA/QDA,当它的所有要求都满足时,分类比逻辑回归更好(更有效)。
  • 逻辑回归对异常值不敏感,而 LDA/QDA 对异常值敏感。

总结:

  • 当类分离和正态假设成立时,LDA 和 QDA 工作得很好。
  • 对于不正常的数据集,逻辑回归在 LDA/QDA 上具有优势。