用输出 0.5 解释二进制分类(真)

数据挖掘 机器学习 神经网络 分类 深度学习
2022-03-06 06:05:07

0.5典型分类器输出的解释是什么?

我做了一个预测,该数据点来自 True 类的概率为 0.5。

2个回答

听起来您的模型在说这个数据点有 50% 的机会可能属于任一类。由于这是一种特殊情况,因此预测算法需要在每个类别的概率相等时选择要选择的类别。在这种情况下,您的模型看起来默认为 True 类。

随机森林支持向量sklearn机等模型中有一些具有功能的模型。如果您查看那里或检查您使用的模型是否有关于如何计算其概率的文档,您可能会找到更多信息。predict_proba

根据您的算法,它可能有不同的解释。

假设您使用的是SVM with kernels,这意味着您的输入数据恰好位于具有不同类的两个数据点之间,或者如果您linear kernelsSVM中使用,则意味着您的数据位于分隔线上

如果您使用神经网络,这是每个类的概率在这种情况下,这种现象可能有不同的解释。

  1. 假设您正在尝试对绿色和紫色猫的图像进行分类!并假设您有两只相同颜色的猫,那么您的分类器可能会输出此结果
  2. 也可能存在另一种解释。假设您的两个类的数据集不平衡。假设两个类有相同的特征向量。在这种情况下,您的样本分布重叠。具有更多数据样本的类将成为赢家,并且将比样本较少的类占据更多空间。在这种情况下,如果你得到 50% 作为输出,你不能说这两个类有相同的期望。

    如果我想进一步澄清这一点,我会用这个例子来做。假设您有一个汽车分类器来区分白色和蓝色汽车。在训练期间,您有100蓝色汽车的图像和20白色汽车的图像。召回阶段,如果对于任意图像,每个类别都有 50%,那么您永远不能说图像具有相同的概率成为每个类别

.