自动对文章的各个部分进行分类

数据挖掘 nlp
2022-03-04 20:01:50

假设我有一篇文章。该文档包含问题、断言、示例和解释等方面。是否可以使用自然语言处理将写作的每个句子分类成这样的方面,从而创建像 1.1:assertion, 1.2:explanation 这样的代码,例如,意思是第 1 段,第 1 句断言和第 1 段,第 2 句,解释?

如果可能的话,如果有人能分享他们关于执行此任务的已知算法的知识,我将不胜感激。

1个回答

据我所知,这没有具体的任务,它是一般的文本分类。它也与文本分割有关。当然存在用于类似任务的现有系统,但可能特定于某种类型的数据。

一般来说,这将是一个受监督的过程,您需要一个包含许多文档的样本,其中的部分已预先注释。我认为 s序列标记算法将是标准方法。