二进制分类与神经网络的连续输出

机器算法验证 分类 神经网络 连续数据
2022-04-13 04:58:08

维基百科在二进制分类中说:

结果是连续值的测试,例如大多数血液值,可以通过定义截止值人为地进行二进制化,根据结果值是高于还是低于截止值,将测试结果指定为阳性或阴性。

关于这是否是一件可取的事情,是否有一些指导?我有数据,其中输出值在训练集中是连续的,我很想知道输出变量有多强。理想情况下,准确的连续值是最好的,但我也会对二进制分类感到满意。我外行的假设是二进制分类任务会更简单一些。关于是否更喜欢连续输出与二进制分类是否有任何指导?

3个回答

这是个坏主意。它增加了 I 型和 II 型错误。它还引发了“神奇的思考”——也就是说,在临界值处发生了一些神奇的事情。例如,对于新生儿,通常说 2.5 公斤以下的婴儿是“低出生体重”,而 2.5 公斤以上的则不是。这将 2.49 公斤的婴儿视为与 1.4 公斤的婴儿相同,但与 2.51 公斤的婴儿有很大不同。同样,2.51 公斤的婴儿被当作 4.5 公斤的婴儿来对待。

确实,人们有时需要根据统计模型的输出做出“是/否”的决定。但统计模型及其结果应该是指导和工具,而不是紧身衣。

如果将连续变量转换为二进制,则会抛出大量详细信息。所以在我看来,最好不要这样做。对于树分类器,使用二元拆分,但如果用于获得第一次拆分,则连续变量中的信息如果对分类非常重要,则可以再次拆分该变量。我认为它不适用于神经网络。

Peter Flom在这里的回答表明离散化你的输出变量会受到伤害。如果是这样,你显然不应该这样做!这绝对是预测变量的传统智慧。但是,考虑了一会儿,我什至不确定如何公平地比较两种情况的输出。我想你可以用它的平均值替换每个离散类并比较均方误差,但这似乎有点偏颇。如果彼得弗洛姆(或其他任何人)有参考或建议,我很想看到他们!

您的特定应用程序可能会确定其中一个更合适。自动除颤器需要决定是否对患者进行电击;它无法显示脉搏的估计值/应该是什么,然后告诉您咨询医生。另一方面,心脏病专家或运动教练可能对这些数字感兴趣。从您的问题来看,听起来连续输出可能更可取。这当然是一个更灵活的选择。如果你在招揽客户,知道哪些人会购买你的产品很好,但能够预测每个人会花多少钱就更好了。例如,您可能会向比尔盖茨提供大量免费样品,而我却得到一支漏水的笔。有一些方法可以对离散化的输出进行排名(例如,使用激活函数),但这可能不是您想要的。

但是,即使您的实际测量是连续的,您最好将某些情况建模为离散的。假设您试图从一个人的活动中预测他们的用电量。功率绝对是一个连续变量。但是,我怀疑许多电器使用大量电力(打开时)或非常少(关闭时)。由于测量误差或其他因素(例如,它特别热,因此计算机的风扇运转得有点困难),可能会有一些差异。根据您的预测器,您可能会更好地预测 COMPUTER=ON、TV=OFF、STEREO=ON,然后用已知值替换其中的每一个。您必须查看直方图以查看您的输出变量是否有许多狭窄、孤立的峰值,或者它是否更连续。

最后,它可能取决于您的听众。彼得·弗洛姆(Peter Flom)提出了一个很好的观点,即人们如何将位于阈值两侧的价值观视为截然不同的。一个 2.501 公斤的婴儿可能与一个 2.499 公斤的婴儿的预后非常相似,即使只有一个官方有“低出生体重”的诊断。有时需要一个阈值,或者它只是方便的速记。一种经常用于儿童的替代方法是报告百分位数(例如,“他的体重略高于 2.5 公斤,但仍处于第 5 个百分位数,因此我们应该密切关注他”)。另一方面,一些尖锐的阈值是合理的:在 -1 度和 +1 度时表现非常不同。您必须根据受众和数据的性质做出决定。H2O