我正在尝试构建一个二进制分类器,其中的特征大多是数字的(大约 20 个),并且还有几个非结构化的短文本字段。目前认为结合这些类型特征的最先进技术是什么?
我尝试单独使用文本数据构建一个单独的分类器(逻辑回归,TFIDF),然后在使用其余数字特征(随机森林,注意训练每个分类器在数据的不同折叠上以防止信号泄漏)。它工作正常,但我认为更好的性能是可能的。
一种变体是简单地训练两个单独的分类器,一个使用文本,另一个使用数字特征,然后将这两个分类器堆叠起来。最后,另一个想法是使用神经网络,有两个输入网络,一个 CNN/LSTM 用于文本,另一个密集用于数字特征,然后将它们组合并具有单个输出。
还有其他我没有想到的方法值得一试吗?