数据挖掘 - 从文档中提取标记：应用深度学习还是分类？ - 吾爱随笔录

数据挖掘深度学习分类 nlp

2022-02-16 09:02:54

我有一份来自 Law 的法律文件。该文件是来自原告的 4 页证据。我想确定该文档中的日期、地址和财务交易。

我可以应用深度学习吗，我的数据非常小，只有一个 4 页的文档，还是应该应用文本分类来解决我的问题？

2个回答

如果您拥有真实的文本，而不是 PDF 甚至图像的扫描文档，则可以很容易地尝试在文本中查找某些内容。这实际上是一个很大的话题，可能会变得相当困难。

纯文本

如果你有纯文本，你可以使用自定义正则表达式解析出你需要的部分，例如查找日期，你可以使用这个：

^(19|20)\d\d[- /.](0[1-9]|1[012])[- /.](0[1-9]|[12][0-9]|3[01])$

匹配 yyyy-mm-dd 格式的日期，从 1900-01-01 到 2099-12-31，可选择四个分隔符 ( source )。

我相信甚至有一些图书馆专门在文本中为您查找日期。

实际上有许多类型的 PDF，即可以在后台对 pdf 进行多种编码。有些类型比其他类型更容易解析，但幸运的是有一些库可以帮助解决这个问题。例如，查看PDFMiner。

使用这样的库后，您可能会得到纯文本，并且可以返回使用该部分中的方法。

如果您不幸将图像作为起点，那么您现在处于 OCR -光学字符识别领域。我建议阅读这篇博文以更完整地描述可能的方法，但简而言之，您可以尝试使用以下任一方法：

Tesseract 库是帮助 OCR 的一个很好的模型。

您说您正在学习 NLP，因此实际上从 PDF 中提取标记可能不是最好的开始示例。我建议您首先确定您真正想学习的内容，然后按照关于该 topic.area 的课程或教程进行学习。

对于您的情况，使用文本分类或正则表达式可能更容易。

其它你可能感兴趣的问题