多类分类规则的含义

数据挖掘 分类
2021-09-27 16:03:00

多类分类规则的含义

Example: I have two classification rules (Refund is a predictor and Cheat is a binary response):
(Refund, No) → (Cheat, No) Support = 0.4, Confidence = 0.57
(Refund, No) → (Cheat, Yes) Support = 0.3, Confidence = 0.43

=> 多类分类规则:

(Refund, No) → (Cheat, No) v (Cheat, Yes)

在对测试数据进行预测分类时,会优先选择(Cheat, No),那么为什么我们这里需要在多类分类规则中有(Cheat, Yes)呢?

2个回答
(Cheat, No) will be selected (cheat will be classified as No) for the rule (Refund, No). 

在像作弊这样的二元响应变量中,所有信息都可以从第一条规则中推断出来:

(Refund, No) → (Cheat, No) Support = 0.4, Confidence = 0.57 

另一条规则是多余的。

但是,在多类响应变量的情况下,我们希望写出所有规则,以便我们准确地知道规则暗示响应变量中每个不同类的可能性。为了保持一致,这也适用于响应变量为二进制的情况。

如果目标列的状态之一比其他状态更重要,那么查看所有规则很重要。例如,如果您正在预测欺诈交易,您可能希望将某事标记为欺诈,即使该概率为 5%。