如何将自然语言脚本分割成段?

数据挖掘 Python 数据挖掘 主题模型 低密度脂蛋白 加工
2021-09-20 19:59:34

我有一堆从 MOOC 网站提取的 .txt 和 .srt 文件,它们是视频的脚本。我想将脚本分成几部分,使每个部分都属于以下类别之一:
MainConceptDescription-> 主要概念的
SubConceptDescription解释-> 与主要概念相关的子概念的解释
Methodology / Technique-> 要实现某些目标,应该做什么做
Summary-> 讨论的材料或整个课程的总结-> 概念
Application的实用建议
Example-> 概念示例

现在,对于前两个,我想我应该尝试应用潜在狄利克雷分配来提取主题。另一个想法是查看资源名称并在文本中搜索这些单词。另一个想法是阅读一些资源并为每个类别手动修复某种字典,然后创建正则表达式模式并在文本中搜索它们。

但后者似乎太蹩脚了。所以现在我不确定我能做什么。我看过类似的研究论文作品,但是研究论文有自己的特定表达方式等,这些表达或多或少是恒定的,并且在大多数论文中都可以看到,但我的视频脚本并非如此,它是 100% 口语自然语言我需要继续努力。你有什么想法我该怎么做?我确实有一个关键字列表,表示是跟随一个示例还是解释了一个概念,但我是手动执行此操作,这肯定不是我想要为 563 个文件执行的操作,因为它可能会变得更多。

此外,我想将找到的主题与本体联系起来,以丰富每个文件的元数据。我也不知道如何处理这个问题。任何建议将不胜感激。

如果我的解释没有意义,请原谅我。我对术语不太熟悉。因此,如果您还解释了您使用的一些术语,我也会很感激。请就我可以尝试的算法提出建议。

1个回答

我以前没有见过这样的东西,但它似乎很可行。您需要一个本体来将主要概念分成其子概念,然后您需要一个分类器来区分更广泛的类别;描述、方法、分类器、应用程序和示例。也就是说,我会在段落级别手动标记一些成绩单。如果您没有分段文本,请平滑句子的分类概率,使它们共享相同的标签。或者使用段落分割模型,如具有词汇和韵律特征的自动段落分割

分类器可以是 CRF 或 RNN。诱导本体的现代方法是通过词嵌入;参看。例如,通过词嵌入学习语义层次结构以前我会推荐分层主题模型,例如 hLDA;参看。例如,使用分层 Dirichlet 过程基于分层主题建模的无监督术语本体学习的文本的主题层次结构的非参数估计

欢迎来到网站,祝你好运!