数据挖掘 - 训练具有文本和数字特征的分类器 - 最先进的是什么？ - 吾爱随笔录

我正在尝试构建一个二进制分类器，其中的特征大多是数字的（大约 20 个），并且还有几个非结构化的短文本字段。目前认为结合这些类型特征的最先进技术是什么？

我尝试单独使用文本数据构建一个单独的分类器（逻辑回归，TFIDF），然后在使用其余数字特征（随机森林，注意训练每个分类器在数据的不同折叠上以防止信号泄漏）。它工作正常，但我认为更好的性能是可能的。

一种变体是简单地训练两个单独的分类器，一个使用文本，另一个使用数字特征，然后将这两个分类器堆叠起来。最后，另一个想法是使用神经网络，有两个输入网络，一个 CNN/LSTM 用于文本，另一个密集用于数字特征，然后将它们组合并具有单个输出。

还有其他我没有想到的方法值得一试吗？