使用深度学习库从文本中提取关键字/短语

数据挖掘 神经网络 文本挖掘 深度学习 初学者 张量流
2021-09-25 23:17:13

也许这太宽泛了,但我正在寻找有关如何在文本摘要任务中使用深度学习的参考资料。

我已经使用标准的词频方法和句子排名实现了文本摘要,但我想探索使用深度学习技术来完成这项任务的可能性。我还通过使用卷积神经网络 (CNN) 进行情绪分析在wildml.com上给出了一些实现;我想知道如何使用 TensorFlow 或 Theano 等库进行文本摘要和关键字提取。自从我开始尝试使用神经网络已经过去了大约一周,我很高兴看到这些库的性能与我以前解决此问题的方法相比如何。

我特别在寻找一些与使用这些框架进行文本摘要相关的有趣论文和 github 项目。谁能给我一些参考资料?

3个回答

Google 研究博客TensorFlow的上下文中应该会有所帮助

在上面的文章中,引用了Annotated English Gigaword 数据集,该数据集通常用于文本摘要。

Sutskever 等人在 2014 年发表的题为“使用神经网络进行序列到序列学习”的论文可能是您旅程的一个有意义的开始,因为事实证明,对于较短的文本,可以通过深度学习技术端到端地学习摘要。

最后,是一个很棒的 Github 存储库,演示了使用 TensorFlow 时的文本摘要。

这是一个开放的研究领域,它当然取决于您解决问题的方式。如果您谈论的是多文档摘要,那么问题与您谈论的单文档摘要略有不同。

值得简要回顾一下文献。

u/Society Of Data Scientists提供的链接很棒,它对于跨单个文档的抽象摘要任务很有用。还有一些关于提取摘要的工作,它确定要提取的重要句子。

拉什等。al 有一篇关于 Attention 的抽象摘要的好论文,它基于深度学习。

对于提取摘要,您可以使用 LSTM 来构建分类器并使用标准 TensorFlow/Torch 库,但目前似乎没有任何关于将深度学习用于这种方法的出版物。

以下是一些额外的 GitHub 存储库:

如果您正在寻找关键词,听起来这更像是一种提取性的总结。以下是一些可能有实现的论文:

通过提取句子和单词进行神经摘要

使用深度学习的提取摘要

通过区域嵌入进行文本分类的半监督卷积神经网络

此外,SpaCy(非附属)有一个关于文本提取任务的一般架构的好博客