有没有办法使用逻辑回归对多标签数据进行分类?多标签是指可以同时属于多个类别的数据。
我想用这种方法对一些生物数据进行分类。
有没有办法使用逻辑回归对多标签数据进行分类?多标签是指可以同时属于多个类别的数据。
我想用这种方法对一些生物数据进行分类。
我原则上,是的 - 不过,我不确定这些技术是否仍称为逻辑回归。
实际上,您的问题可以参考通常分类器的两个独立扩展:
您可以要求每种情况下所有成员的总和为一(“封闭世界”=通常情况)
或放弃此约束(有时称为“一类分类器”)
这可以通过多个独立的 LR 模型进行训练,尽管是一类问题通常是不适定的(此类与可能存在于各个方向的各种异常),然后 LR 并不是特别适合。
部分类成员关系:每个案例都属于每个类的成员关系,类似于模糊聚类分析中的成员关系:
假设有 3 个类 A、B、C。那么一个样本可能被标记为属于 B 类。这也可以写成成员向量。在这种表示法中,部分成员资格将是例如等。
根据问题(模糊成员资格或概率),可以应用不同的解释:
对于预测,例如后验概率不仅是可能的,而且实际上相当普遍
甚至验证
整个想法是,对于边缘情况,可能无法将它们明确地分配给一个类。
在作为 MASS 一部分的 R egnnet:::multinom中,它确实接受此类数据进行训练。在幕后使用具有逻辑 sigmoid 且没有任何隐藏层的 ANN。
我softclassval为验证部分开发了包。
一类分类器在Richard G. Brereton: Chemometrics for Pattern Recognition, Wiley, 2009 中有很好的解释。
我们在本文中对部分成员进行了更详细的讨论: Claudia Beleites、Kathrin Geiger、Matthias Kirsch、Stephan B Sobottka、Gabriele Schackert 和 Reiner Salzer:星形细胞瘤组织的拉曼光谱分级:使用软参考信息。肛门生物肛门化学,2011,卷。400(9),第 2801-2816 页
使用多类分类器(例如多项逻辑回归)进行多标签分类的一种直接方法是将每个可能的标签分配分配给它自己的类。例如,如果你在做二元多标签分类并且有 3 个标签,你可以分配
[0 0 0] = 0
[0 0 1] = 1
[0 1 0] = 2
依此类推,产生个类。
这种方法最明显的问题是,即使标签数量相对较少(如果您有标签,您将需要类),您最终可能会得到大量类。您也将无法预测数据集中不存在的标签分配,并且您对数据的使用会相当差,但是如果您有大量数据,并且对可能的标签分配有很好的覆盖范围,这些事情可能无关紧要。
超越这一点以及其他人的建议,您可能希望查看结构化预测算法,例如条件随机场。