如何将旧的数字化报纸分割成文章

数据挖掘 nlp 文本挖掘 ocr
2022-02-17 22:11:32

我正在研究大量 19 世纪的法国日报,这些报纸已经数字化,数据以原始 OCR 文本文件的形式(每天一个文本文件)。就规模而言,一年的问题大约有 350 000 字长。

我想要实现的是检测构成报纸问题的不同文章。知道一篇文章可能有两行或非常长,没有系统的排版划分,每个文件中都有很多 OCR 错误。我还应该提到,我无法访问其他 OCR 数据,例如 XML 中的文档布局。

我已经尝试过TexTiling算法(nltk 实现),但结果并不是很确定。

在自己深入研究之前,我想知道你们中的一些人是否会对这样的任务有所暗示:训练机器学习模型,尝试其他算法?

1个回答

据我所知,对于干净的数据,主题分割并不是一项特别容易的任务,因此对于嘈杂的古法语来说,这可能是一项挑战。

这不是完全相同的问题,所以我不确定这是否有用,但您可能想研究使用风格特征来帮助模型检测文章之间的变化。作为PAN 系列的一部分,风格变化检测任务已经进行了大量的工作(该任务已经运行了 3 年,前几年的结果和论文都可用)。

希望这可以帮助。