使用 NLP 或深度学习从文档中提取文本

数据挖掘 深度学习 nlp 文本挖掘 强化学习 命名实体识别
2021-10-14 11:44:15

我正在寻找有关如何在文本提取任务中使用深度学习的参考资料(论文/github 项目)。

最近我的任务是从类似类型的文件中提取重要信息,例如法律合并文件。我有数以千计的合法合并文件作为输入。律师助理将通读整个文件并突出文件中的要点。这是提取的文本。

我想要做什么:给定一个文件(比如法律合并文件),我想使用 DL 或 NLP 从法律文件中提取与律师助理提取的信息相似的信息。

我目前正在使用词袋模型从文档中提取文本,计算情绪并显示具有正面或负面情绪的句子。这产生了非常糟糕的结果。

我在 DL/NLP 方面的知识非常有限,我特别在寻找一些与使用这些框架进行文本提取相关的有趣论文和 github 项目。谁能给我一些关于如何解决这个问题的参考和建议?

1个回答

Jurafsky 和 ​​Martin 的NLP 教科书有一章是关于信息提取的,应该是一个很好的起点。例如,如果您想提取公司名称,它会告诉您如何操作。

律师助理将通读整个文件并突出文件中的要点。

你需要做什么很大程度上取决于你对“重要”的定义是什么。如果你能给出一些具体的例子,这将有所帮助。