用于分类的半监督学习、主动学习和深度学习

机器算法验证 机器学习 分类 软件 支持向量机 文本挖掘
2022-01-23 07:54:20

更新所有资源的最终编辑:

对于一个项目,我正在应用机器学习算法进行分类。

挑战: 非常有限的标记数据和更多未标记数据。

目标:

  1. 应用半监督分类
  2. 应用某种半监督标记过程(称为主动学习)

我从研究论文中找到了很多信息,比如应用 EM、Transductive SVM 或 S3VM(Semi Supervised SVM),或者以某种方式使用 LDA 等。即使关于这个主题的书籍也很少。

问题: 实现和实际来源在哪里?


最终更新(基于 mpiktas、bayer 和 Dikran Marsupial 提供的帮助)

半监督学习:

主动学习:

  • Dualist : 使用文本分类源代码实现主动学习
  • 这个网页提供了一个关于主动学习的精彩概述。
  • 一个实验设计研讨会:这里

深度学习:

3个回答

似乎深度学习对您来说可能非常有趣。这是一个最近的深度连接模型领域,它以无监督的方式进行预训练,然后在监督下进行微调。微调需要比预训练少得多的样本。

为了弄湿你的舌头,我推荐 [Semantig Hashing Salakhutdinov, Hinton查看为路透社语料库的不同文档找到的代码:(无监督!)

在此处输入图像描述

如果您需要实现一些代码,请查看deeplearning.net不过,我不相信有现成的解决方案。

Isabelle Guyon(和同事)不久前组织了一个关于主动学习的挑战,论文集发表在这里(开放获取)。这具有非常实用的优点,并且您可以在无偏见(在口语意义上)协议下直接比较不同方法的性能(随机选择模式非常难以击败)。