如何使用机器学习从文本中提取特定信息?

机器算法验证 机器学习 深度学习 数据挖掘 文本挖掘 循环神经网络
2022-03-21 10:06:47

假设我有一个像下面这样的文本,它通常有 2/3 个句子和 100-200 个字符。

强尼从沃尔玛买了 50 美元的牛奶。现在他只剩下20美元了。

我要提取

人名:乔尼

花费:50美元

剩下的钱:20美元。

消费地点:沃尔玛。

我已经阅读了很多关于循环神经网络的材料。看了RNN上的cs231n视频,了解下一个字符预测。在这些情况下,我们有一组 26 个字符,我们可以将它们用作输出类,以使用概率来查找下一个字符。但是这里的问题似乎完全不同,因为我们不知道输出类。输出取决于文本中的单词和数字,可以是任何随机单词或数字。

我在 Quora 上读到,卷积神经网络也可以提取文本的特征。想知道这是否也可以解决这个特殊问题?

2个回答

您在这里提出的问题称为命名实体识别 (NER),或命名实体提取。

有多种技术(不是必须的神经网络)可以用于解决这个问题,其中一些已经相当成熟。请参阅此 repo以获得易于插入的解决方案,或尝试在 Python 中应用模块中的ne_chunk_sents功能。NLTK

我想你可以看看依赖解析您的事实元组可以从依赖图中的边缘中提取。

在此处输入图像描述

PS1 如果你想在 NLP 上做点什么,你应该检查 cs224n 而不是 cs231n。我还记得 cs224 包含有关 DL 用于依赖解析的部分。

PS2 依赖树取自 Stanford Neural Network Dependency Parser