您需要退后一步,以决定哪种模型最适合您的用例。在执行此操作之前,predict_proba 对计算类标签的后验概率绝对很重要,但它不适用于与其他模型输出进行比较(尤其是决定哪些模型最适合您的预测)。
逻辑回归、QDA 和 LDA 都有不同的方法。逻辑回归基于最大似然估计,而 LDA 和 QDA 基于贝叶斯定理。要了解哪个分类器最适合您的模型,我们需要检查假设(假设您知道数学表达式),然后您可以判断哪个最适合您。
1. 逻辑回归
在逻辑回归中,可以直接获得特定观察 (X=x) 的类别 (Y=k) 的观察概率。没有什么可以假设为分类运行逻辑回归。它通常是一种安全的方法,并不紧急且稳健。
2. LDA & QDA
LDA 和 QDA 算法基于贝叶斯定理,观察的分类通过以下两个步骤完成。
- 确定每个类(或组 ex Y=k1、k2、k3 等)的输入 X 的分布
- 使用贝叶斯定理翻转分布以计算概率 Pr(Y=k|X=x)
以下是 LDA 和 QDA 所需的假设:
- LDA 假设:
- 所有响应类的共同协方差 σ2(对于 k1、k2、k3 响应类,例如 σk1 = σk2 = σk3)
- 每个响应类中的观察分布是正态的,具有特定于类的平均值 (µk) 和共同协方差 σ。
- QDA 假设:
- 每个响应类的不同协方差。例如 – σk1、σk2、σk3 用于响应类 k1、k2、k3 等。
- 每个响应类中的观察分布是正态的,具有特定于类的平均值 (µk) 和特定于类的协方差 (σk2)。
笔记:
- 当分类器之间需要线性边界时,使用 LDA(线性判别分析)。
- QDA(二次判别分析)用于找到分类器之间的非线性边界。
- LDA/QDA,当它的所有要求都满足时,分类比逻辑回归更好(更有效)。
- 逻辑回归对异常值不敏感,而 LDA/QDA 对异常值敏感。
总结:
- 当类分离和正态假设成立时,LDA 和 QDA 工作得很好。
- 对于不正常的数据集,逻辑回归在 LDA/QDA 上具有优势。