我正在尝试使用 CNN(卷积神经网络)对文档进行分类。用于短文本/句子的 CNN 已在许多论文中进行了研究。但是,似乎没有论文将 CNN 用于长文本或文档。
我的问题是文档中的功能太多。在我的数据集中,每个文档都有超过 1000 个标记/单词。为了将每个示例提供给 CNN,我使用word2vec或glove将每个文档转换为矩阵,从而生成一个大矩阵。对于每个矩阵,高度是文档的长度,宽度是词嵌入向量的大小。我的数据集有 9000 多个示例,训练网络需要大量时间(整整一周),这使得微调参数变得困难。
另一种特征提取方法是对每个单词使用 one-hot 向量,但这会创建非常稀疏的矩阵。当然,这种方法甚至比以前的方法需要更多的时间来训练。
那么有没有更好的方法来提取特征而不创建大型输入矩阵呢?
我们应该如何处理可变长度的文档?目前,我添加特殊字符串以使文档具有相同的长度,但我认为这不是一个好的解决方案。