我们正在尝试建立一个模型来分类不同类型的文档作为我们管道的第一步(最终目标是阅读所有文本)。目前我们使用 ImageNet 来提取特征,然后将其传递给一个自定义模型,该模型包括一个 LSTM 层和几个 FC 层。该模型通常在“同一类”类别中步履蹒跚。例如,在一个政府之间。已发行卡与其他卡,如下所示

正如您所看到的,两者看起来与人类不同,但在图像中心有相同的密集文本。这两个类别都有误报。
除了从预训练模型中提取的功能外,我们还可以使用哪些附加功能?(我们知道 ImageNet 没有在此类图像上进行过训练,但它提取的特征以及一个简单的 LSTM+DENSE 模型为我们提供了约 80% 的 F 分数)。我们可以全部尝试并使用 PCA 来确定最佳组合。
这是我们尝试过的(以及 ImageNet 功能)
一维直方图(彩色和灰度图像)
多维直方图(我们堆叠的 3 个向量)这只会降低整体精度。
我们在线阅读的大多数文档都属于可以提取特定领域特征的特定领域。不知道我们在这里做什么..请指导
