数据挖掘 - 如何从文本文档中提取段落？ - 吾爱随笔录

我使用 pdftotext 从公司年报的 pdf 文件中提取了文本数据。提取的文件内容如下所示： Sample pdf file is here

前瞻性陈述

在本年报中，我们披露了前瞻性信息，使投资者能够

了解我们的前景并做出投资决定。本报告以及我们定期分享的其他书面和口头陈述包含

陈述……//内容以这种格式继续，直到段落结束//

永远的英雄

现在，如果查看上述链接上的实际报告，帐户注释和独立审计师报告下的文本遵循印度所有公司报告中几乎相似的结构。只有董事长的信息或董事会报告有所不同，但通常会谈论增长、业绩、未来、投资等。

那么有什么方法可以仅提取段落/多个段落组合成包含有用信息的单个（如果相同信息的延续）。我已经搜索过，但我发现大部分工作都在段落/文档摘要上，但没有找到像从文档中提取实际连续文本数据块这样的东西。注意：在从 pdf 转换为文本时生成的段落之间有很多嘈杂的数据（pdf 中的实际数据，但它们就像页码，如果公司在页眉/页脚中添加了一些文本，而不是页面标题等）：

多行段落 R

○

一世

WE W DS REMA INDS

M 中的 BRANVANT