我是自然语言处理的新手,还没有听说过与我类似的问题。我想知道是否有人可以向我推荐解决问题的方法,或者告诉我在学术文献中如何提及这个问题,以便我可以在线查找资源。
这是问题: 从一些文本(例如维基百科文章)中,我想提取可以在其中找到的不同概念的层次结构。通过层次结构,我的意思是一棵树,其中如果 A 或 A 的父母之一(传递性)由 B 定义,则 A 是 B 的后代。例如,正态分布将是概率的后代(因为正态分布是使用概率定义的)和概率将是数学的后代(或孩子)。由于它是可传递的,正态分布也是数学的产物。
我考虑解决这个问题的一种方法是查看单词 A 单独使用的次数(称为 A),单词 A 和 B 一起使用的次数(称为 A AND B,例如,“一起”可能是同一篇文章或同一段落中,或同一个句子中),以及单独使用单词 B 的次数(称为 B)。设 A 是数学,B 是概率。那么,如果 (A AND B)/A 和 (A AND B)/B 的比率较低,则可能意味着 A 和 B 之间没有直接联系(但可以通过传递性存在联系)。相反,如果 A 大于 B,则 A 是比 B 更大的概念。如果 A 和 B 几乎相同,则它们可能是兄弟姐妹(同一父母的孩子)。
我们举3个例子:
- 数学(A)和胡萝卜(B)。A AND B 与 A 和 B 相比非常低,因此它们之间没有直接联系(或只有传递性的间接联系)。
- 数学(A)和概率(B)。A AND B 与 B 相比相当高,A 比 B 大得多,所以 B 应该是 A 的孩子(概率是数学的孩子)。
- 拓扑 (A) 和概率 (B)。A AND B 相对较高(介绍不同数学领域的课文可能会谈到 2),A 和 B 的数量级差不多,所以 A 和 B 应该是同一个父母的孩子。事实上,拓扑和概率是数学的孩子。
这种解决问题的方法远非完美,例如“the”(A)和“probability”(B)可能最终会说probability is a child of the(因为A AND B很大,A远大于乙)。
如果有人知道这方面的一些论文或对我如何解决这个问题有任何想法,我将不胜感激。另外,我的解决方案似乎可行吗?如何改进?