多标签逻辑回归

机器算法验证 分类 物流 多标签
2022-03-12 20:28:10

有没有办法使用逻辑回归对多标签数据进行分类?多标签是指可以同时属于多个类别的数据。

我想用这种方法对一些生物数据进行分类。

3个回答

我原则上,是的 - 不过,我不确定这些技术是否仍称为逻辑回归。

实际上,您的问题可以参考通常分类器的两个独立扩展:

  1. 您可以要求每种情况下所有成员的总和为一(“封闭世界”=通常情况)
    或放弃此约束(有时称为“一类分类器”)
    这可以通过多个独立的 LR 模型进行训练,尽管是一类问题通常是不适定的(此类与可能存在于各个方向的各种异常),然后 LR 并不是特别适合。

  2. 部分类成员关系:每个案例都属于每个类的成员关系,类似于模糊聚类分析中的成员关系: 假设有 3 个类 A、B、C。那么一个样本可能被标记为属于 B 类。这也可以写成成员向量在这种表示法中,部分成员资格将是例如等。[0,1]nclasses
    [A=0,B=1,C=0][A=0.05,B=0.95,C=0]

    • 根据问题(模糊成员资格或概率),可以应用不同的解释:

      • 模糊:一个案例可以一半属于 A 类,一半属于 C 类:[0.5, 0, 0.5]
      • 概率:参考(例如对样本进行分类的专家)80% 确定它属于 A 类,但说它有 20% 的机会是 C 类,同时确定它不是 B 类(0%):[0.8, 0 , 0.2]。
      • 另一个概率:专家组投票:5 位专家中有​​ 4 位说“A”,1 位说“C”:再次 [0.8, 0, 0.2]
    • 对于预测,例如后验概率不仅是可能的,而且实际上相当普遍

    • 也可以将其用于培训
    • 甚至验证

    • 整个想法是,对于边缘情况,可能无法将它们明确地分配给一个类。

    • 您是否以及如何将软预测(例如后验概率)“硬化”为对应于该类别 100% 成员资格的“正常”类别标签,这完全取决于您。对于中间后验概率,您甚至可以返回结果“不明确”。哪个是明智的取决于您的应用程序。

在作为 MASS 一部分的 R egnnet:::multinom中,它确实接受此类数据进行训练。在幕后使用具有逻辑 sigmoid 且没有任何隐藏层的 ANN。
softclassval为验证部分开发了包。

一类分类器在Richard G. Brereton: Chemometrics for Pattern Recognition, Wiley, 2009 中有很好的解释。

我们在本文中对部分成员进行了更详细的讨论: Claudia Beleites、Kathrin Geiger、Matthias Kirsch、Stephan B Sobottka、Gabriele Schackert 和 Reiner Salzer:星形细胞瘤组织的拉曼光谱分级:使用软参考信息。肛门生物肛门化学,2011,卷。400(9),第 2801-2816 页

使用多类分类器(例如多项逻辑回归)进行多标签分类的一种直接方法是将每个可能的标签分配分配给它自己的类。例如,如果你在做二元多标签分类并且有 3 个标签,你可以分配

[0 0 0] = 0
[0 0 1] = 1
[0 1 0] = 2

依此类推,产生个类。23=8

这种方法最明显的问题是,即使标签数量相对较少(如果您有标签,您将需要类),您最终可能会得到大量类。您也将无法预测数据集中不存在的标签分配,并且您对数据的使用会相当差,但是如果您有大量数据,并且对可能的标签分配有很好的覆盖范围,这些事情可能无关紧要。n2n

超越这一点以及其他人的建议,您可能希望查看结构化预测算法,例如条件随机场。

这个问题也与成本敏感学习有关,其中预测样本的标签可能有成本。对于多标签样本,这些标签的成本较低,而其他标签的成本较高。

您可以查看本教程,您也可以在此处找到相应的幻灯片。