如果我说我基本上已经阅读了本网站上有关此主题的所有主题,请相信我。他们中的许多人都有类似的标题,但问题在某种程度上有所不同。
小背景:刚开始学习 TensorFlow,我也是机器学习世界的新手……对于我将在这篇文章中写的任何愚蠢的东西感到抱歉。当然,我正在研究这门学科的基础,但我想知道最后我是否能够解决一个特定的场景,并获得一个好的方向。
场景:我有很多具有相同结构的文档(转换为 PDF/图像的纸质文档)......一个用户填充内容很少的模板。让我们举一个例子(变量以粗体显示):
纽约警察局[...] 司机John Doe,出生于2019年 4 月 3日,拥有some_car_model_here
驾驶执照XY123ZZ等...
所以基本上我需要提取实体名称、生日、汽车型号、驾驶执照等。此外,文档上可能有不同的名称和不同的日期,因此上下文很重要。示例:我只需要“司机”后面的名字。
我现在在做什么:
- 使用 Google Vision 提取文档内容(以块为单位)
- 检查文档的第一句话以了解要应用哪一组正则表达式(在这种情况下,我应该应用“纽约”一组正则表达式的“警察局”)
- 应用正则表达式命令从该文档中提取实体
我想做的事情:如果我定期将大量文档添加到假设的训练集中,我希望有一种最聪明的方法来增加正确提取所需内容的机会。这就是我考虑“机器学习”的原因,这也是我将 TensorFlow 确定为可能的库的原因。
我已经看到 NLTK 可能是一种选择,但最后(如果我错了,请纠正我)我应该编写自己的规则,可能再次使用正则表达式,以提取一些自定义内容。我也读过关于 NER 的文章,但几乎没有想过它有什么帮助。
所以基本上我要问的是:我可以使用 Tensorflow(或“机器学习”相关库)执行此任务吗?是否有特定的主题/分支要寻找?您还有其他建议吗(如果我走错了路)?
谢谢,洛伦佐