我有一组语句,我需要将它们分类为 5 类。每个语句在不同的列中都有元数据:
作者|编辑| 发布日期| 声明 | 班级
如何使用元数据来改进文本分类任务?
我有一组语句,我需要将它们分类为 5 类。每个语句在不同的列中都有元数据:
作者|编辑| 发布日期| 声明 | 班级
如何使用元数据来改进文本分类任务?
有些模型无法真正处理这个问题,而另一些模型则很容易做到。我将解释您可以使用的两种方法:
朴素贝叶斯
使用朴素贝叶斯,您可以使用其他分类值以及正常的 n-gram 或稀疏词向量包。只需将它们一次性编码添加到您的功能中,它也会被合并。对于数值特征,您需要使用高斯朴素贝叶斯之类的东西来拟合每个目标类的特征的分布,然后您可以使用每个类的这些特征的可能性来计算概率。
神经网络
如果您使用 CNN 或 RNN 等神经网络方法,您可以添加任何类型的特征表示网络并将其连接到原始网络中的某个位置。在您的情况下,您将在 RNN 的末尾有一个 softmax。在此之前,连接您的“正常特征”神经网络的输出,添加一些密集层并将其提供给您的 softmax 输出层。通过这种方式,您可以端到端地训练您的模型,并且它还将学习重要的交互。