什么(概率模型)只有在确定时才能输出决策?

数据挖掘 多标签分类 信息论
2022-03-10 08:52:36

我基本上是在寻找以下情况(故障诊断问题)的方法、模型、算法:

我有一个输入集{xi}i{1..m}n案例的二进制特征(想想触发的“故障”或“警报”)和k类。每个案例xi可以属于至少一个类,最多属于k(所以我正在处理多标签分类)。

现在数据集中的一些关系完全无聊/没有信息(比如,特征a说“发生机械错误”并贴上标签b表示“已修复机械错误”)。但更一般地说,每当xa=1,我看到各种标签,即a不是预测性的。换句话说,这种关系不是“功能性的”。

其他输入功能c可能具有更“功能性”的性质,因此无论何时xc=1, 我很容易推断yd=1.

例如,我的训练集可能如下所示:

[0,1,0]{4,1}

[0,1,0]{2}

[1,0,0]{1}

[1,0,0]{1}

所以,知道[0,1,0]不是真正的信息,而[1,0,0]告诉我(非常有把握地)标签 1 处于活动状态。

我正在寻找后面的对,一个只提取有意义的对并忽略无信息输入的分类器。

你能给我指出相关的技术/关键词吗?非常感谢!

1个回答

您可以获得所有标签的概率。如果概率大于某个值,您可以设置置信度阈值,否则分类保持沉默。