我正在处理大量新闻稿(主要是 PDF 或 DOC 文档,即文本)。我想将它们自动解析为 CSV 文件,每个事件 1 行。
输出:
datetime;location;title;description
2016-06-02 18:30;Public Library;About Picasso's last years;Lorem ipsum...
2016-06-03 17:30;Public Library;1001 stories;For children, 3 to 6 year old
我可以为每个精确的文档布局编写一个解析器(例如,日期总是粗体,描述总是斜体)或检测关键字(例如:一月、二月等=>假设附近的词是日期等)。但这需要为每个不同的新闻稿做大量工作。
我正在寻找更聪明的解决方案,可能涉及机器学习和/或神经网络。我愿意参加这个主题的 MOOC(我有数学博士背景和编程技能)。
您认为解决如此大(且困难的主题)问题的一般技术是什么?
是否有专门用于此的开源项目?
一些可以使这项任务更容易的 Python 库?
有什么一般的想法吗?