子串的分类?

数据挖掘 nlp
2022-01-30 20:52:14

查找涉及特定主题或属于某个类别的 n-gram/子短语/序列部分的适当方法是什么?

例如:

想象一个“所有权转移”的话题和一些例句:

  • >所有权变更<发生在所有权从一个人或实体转移到另一个人或实体时
  • >改变企业所有权<是一个漫长而复杂的过程
  • 在这方面,>合法所有权的转让<不是确定类似回购操作的相关特征

我正在寻找的是一种识别句子和理想的句子部分的方法,这些句子是指特定的主题/主题。

哪些 NLP 方法是合适的?

1个回答

查找涉及特定主题或属于某个类别的 n-gram/子短语/序列部分的适当方法是什么?

  • 解决这个问题的一个重要问题是:输入主题的范围是多少?是否在预定义的封闭列表中选择了主题?可以是任何搜索查询吗?
  • 可能会针对目标文档和/或术语提出类似的问题:是否可以对其进行处理以便提前提取任何候选术语,并且任务仅在于识别特定主题的正确术语?

假设问题的最开放的变体(即事先没有任何可用的),我认为需要:

  • 一个术语提取系统,它从文本中提取任何候选术语(最好特定于要处理的数据)。
  • 第三方资源,以计算包括输入主题查询在内的任何可能术语的语义表示(通常是向量),以便可以将主题与任何术语进行匹配/比较。