我正在研究大量 19 世纪的法国日报,这些报纸已经数字化,数据以原始 OCR 文本文件的形式(每天一个文本文件)。就规模而言,一年的问题大约有 350 000 字长。
我想要实现的是检测构成报纸问题的不同文章。知道一篇文章可能有两行或非常长,没有系统的排版划分,每个文件中都有很多 OCR 错误。我还应该提到,我无法访问其他 OCR 数据,例如 XML 中的文档布局。
我已经尝试过TexTiling算法(nltk 实现),但结果并不是很确定。
在自己深入研究之前,我想知道你们中的一些人是否会对这样的任务有所暗示:训练机器学习模型,尝试其他算法?