我有一份来自 Law 的法律文件。该文件是来自原告的 4 页证据。我想确定该文档中的日期、地址和财务交易。
我可以应用深度学习吗,我的数据非常小,只有一个 4 页的文档,还是应该应用文本分类来解决我的问题?
我有一份来自 Law 的法律文件。该文件是来自原告的 4 页证据。我想确定该文档中的日期、地址和财务交易。
我可以应用深度学习吗,我的数据非常小,只有一个 4 页的文档,还是应该应用文本分类来解决我的问题?
如果您拥有真实的文本,而不是 PDF 甚至图像的扫描文档,则可以很容易地尝试在文本中查找某些内容。这实际上是一个很大的话题,可能会变得相当困难。
如果你有纯文本,你可以使用自定义正则表达式解析出你需要的部分,例如查找日期,你可以使用这个:
^(19|20)\d\d[- /.](0[1-9]|1[012])[- /.](0[1-9]|[12][0-9]|3[01])$
匹配 yyyy-mm-dd 格式的日期,从 1900-01-01 到 2099-12-31,可选择四个分隔符 ( source )。
我相信甚至有一些图书馆专门在文本中为您查找日期。
实际上有许多类型的 PDF,即可以在后台对 pdf 进行多种编码。有些类型比其他类型更容易解析,但幸运的是有一些库可以帮助解决这个问题。例如,查看PDFMiner。
使用这样的库后,您可能会得到纯文本,并且可以返回使用该部分中的方法。
如果您不幸将图像作为起点,那么您现在处于 OCR -光学字符识别领域。我建议阅读这篇博文以更完整地描述可能的方法,但简而言之,您可以尝试使用以下任一方法:
Tesseract 库是帮助 OCR 的一个很好的模型。
您说您正在学习 NLP,因此实际上从 PDF 中提取标记可能不是最好的开始示例。我建议您首先确定您真正想学习的内容,然后按照关于该 topic.area 的课程或教程进行学习。
对于您的情况,使用文本分类或正则表达式可能更容易。