假设您有一个具有以下属性的数据集:
- 样本数量相当大(~100K 样本)
- 有大约 150 个上下文特征和 1 个由文本字符串组成的特征(当然,可以根据文本的预处理将其拆分为任意数量的特征)。预计文本字符串将具有非常强大的预测能力
- 根据一些上下文特征,样本分为 3 类(在您接收数据之前),A 类包含约 5% 的样本,B 类包含约 20% 的样本,C 类包含剩余的 75%
- A类完全标注,B类部分标注(只有一小部分未标注),C类完全未标注
- 用于对样本进行分类的特征可能会影响样本属于 0 类或 1 类的概率。
- 类别之间的样本并不完全不同(也就是说,我们不是在谈论猫与狗)。例如:两个非常相似的样本可能会基于大范围数值特征上的非常小的差异而最终归入不同的类别
目的是建立一个能够正确分类样本的分类器。这可能看起来像一个半监督学习问题,但我担心类别之间的结构差异。因此我的问题是:可以采用哪些策略来构建在所有样本上都表现良好的分类器?
当然我可以保守一点,只处理有标签的数据,但也能预测无标签的数据(例如 C 类数据的 75%)有很大的价值。这就是为什么我会尝试为创造性的解决方案挑选你的大脑!