当无监督学习比有监督学习更有益时,甚至存在标签?如果没有标记,无监督学习比监督学习更好,但在某些情况下,即使标记目标可用,监督学习方法效果更好?这些案件的条件如何?我们可以说如果变量之间没有明显的依赖关系,无监督学习效果会更好吗?
当无监督学习比有监督学习更有益时,即使存在标签?
数据挖掘
无监督学习
监督学习
标签
方差
2022-01-30 19:59:48
1个回答
当无监督学习比有监督学习更有益时,甚至存在标签?
我想说主要有两种情况:
- 作为无监督任务,该任务在语义上更有意义。例如,让我们考虑一组带有主题注释的书籍:如果目标是将新书籍分类到相同的预先存在的类别中,那么使用监督设置是有意义的。然而,如果目标是发现人类注释者可能不容易直观地注意到的新的相似性模式,那么无监督主题建模更有意义。
- 注释可用于某些数据子集(例如,用于评估目的),但在以后的生产中将不可用(在某种程度上,这也是目标的一个例子,但这里出于技术原因)。
如果没有标记,无监督学习比监督学习更好,但在某些情况下,即使标记目标可用,监督学习方法效果更好?这些案件的条件如何?
这里的问题是“更好”的含义,即如何评估任务。如果根据预先存在的标签对任务进行评估,理论上无监督版本不能比有监督的版本更好,因为有监督的版本可以访问更多信息。一种特别不合适的监督方法可能会比精心选择的无监督方法表现更差,但这不是一个公平的比较,在实践中也不太可能。
一般来说,这两者是不可比较的,因为任务根本不同:在有监督的环境中,人们想要找到与一些事先已知的信息(标签)相关的模式,而在无监督的环境中,人们想要发现未知的模式。
我们可以说如果变量之间没有明显的依赖关系,无监督学习效果会更好吗?
我不这么认为,因为:
- 一些监督算法非常擅长优化数据中可用的少量信息。即使根据标准度量可见“没有明显的依赖性”,一些算法也可以优化组合特征以最小化错误。
- 在特征和标签之间完全没有依赖关系的情况下,无监督方法可能会表现得更好,因为它可能会找到有意义的模式,但这些根本不会与标签相关(因为没有依赖关系) . 所以我们回到“更好”对于任务意味着什么的问题:如果任务是发现未知模式,那么肯定无监督是“更好”,但这与标签无关,有监督的方法会使这里没有意义。如果任务是关于预测标签,那么无监督的方法与有监督的方法一样糟糕(并且任务的设计存在严重缺陷!)。
其它你可能感兴趣的问题