背景
我有一大堆写得很糟糕的陈述,一些事实,一些观点。它都是从各种公共互联网资源中刮下来的,都是英文的。
我现在在 python 中使用 nltk 来尝试从这个庞大的文本块中找出一些基本语句。
我的目标不是捕捉所有陈述,误报也不算太糟糕。我只是想从这个文本块中得到一些可能真实而简单的断言。
例子
鲍勃自 1983 年起与丽莎结婚。
丽莎的猫雪球两年前去世了。
鲍勃和丽莎有一个 30 岁的儿子,名叫乔治。
从这些简单的句子中,我想解析出一些简单的事实,比如:
"Bob is married", "Lisa is married", "George is Lisa's son", "George is Bobs son", "Snowball is a cat"
它不需要完全是这样。
实际问题
这种处理叫什么?(除了它是自然语言处理的一个子类别。)
解决这个问题的更简单和更难的方法是什么?
公共和专有算法在多大程度上解决了这个问题?