训练具有文本和数字特征的分类器 - 最先进的是什么?

数据挖掘 神经网络 分类 文本分类
2022-03-13 11:58:04

我正在尝试构建一个二进制分类器,其中的特征大多是数字的(大约 20 个),并且还有几个非结构化的短文本字段。目前认为结合这些类型特征的最先进技术是什么?

我尝试单独使用文本数据构建一个单独的分类器(逻辑回归,TFIDF),然后在使用其余数字特征(随机森林,注意训练每个分类器在数据的不同折叠上以防止信号泄漏)。它工作正常,但我认为更好的性能是可能的。

一种变体是简单地训练两个单独的分类器,一个使用文本,另一个使用数字特征,然后将这两个分类器堆叠起来。最后,另一个想法是使用神经网络,有两个输入网络,一个 CNN/LSTM 用于文本,另一个密集用于数字特征,然后将它们组合并具有单个输出。

还有其他我没有想到的方法值得一试吗?

2个回答

关于第一个问题,据我所知,没有 SOTA 方法。这取决于任务。

对于第二个,您是否尝试将数值与 TFIDF 向量组合,然后将最终向量提供给分类器?可能不是。我通常会尝试这种方式。但是,如果您的词汇量太大,请尝试通过考虑 top N-words 来减少它,因为将小的数值向量与巨大的 TFIDF 向量组合可能不会让数值影响结果。

为了改善您的结果,您应该尝试其他嵌入而不是 tf-idf。一些例子是 word2vec、FastText、Elmo、Flair 或基于转换器的嵌入,如 BERT。在过去,我使用单个神经网络获得了很好的结果,该网络使用嵌入和数值特征作为输入特征。但是,如前所述,这取决于您的具体问题。