我正在尝试使用卷积神经网络 (CNN) 对多页文档进行分类。语料库中每一页的内容只包含文本(即没有照片或图标),不同的文档可能有不同的形状(高度和宽度)。我希望我的分类方法使用每个文档中的所有页面,而不仅仅是第一页。
据我所知,CNN(如 theano)的输入需要标准化的形状。我的第一个想法是创建一个连接所有页面的单个图像数组。但是然后我将不得不调整所有连接页面的大小/零填充以匹配具有最大页数的文档的长度,并将其用作连接页面集的最低高度和宽度。如果我不使用这种策略,我可能会失去图像中文字的分辨率,但这是一个巨大的输入向量。
我觉得将每个文档的页面分成单独的样本将是标准化输入预处理的更好方法,但是如果我只是在每个文档的松散页面上进行训练,我不知道如何对整个文档进行分类。任何人都可以在这方面给我建议吗?