我有一堆从 MOOC 网站提取的 .txt 和 .srt 文件,它们是视频的脚本。我想将脚本分成几部分,使每个部分都属于以下类别之一:
MainConceptDescription
-> 主要概念的
SubConceptDescription
解释-> 与主要概念相关的子概念的解释
Methodology / Technique
-> 要实现某些目标,应该做什么做
Summary
-> 讨论的材料或整个课程的总结-> 概念
Application
的实用建议
Example
-> 概念示例
现在,对于前两个,我想我应该尝试应用潜在狄利克雷分配来提取主题。另一个想法是查看资源名称并在文本中搜索这些单词。另一个想法是阅读一些资源并为每个类别手动修复某种字典,然后创建正则表达式模式并在文本中搜索它们。
但后者似乎太蹩脚了。所以现在我不确定我能做什么。我看过类似的研究论文作品,但是研究论文有自己的特定表达方式等,这些表达或多或少是恒定的,并且在大多数论文中都可以看到,但我的视频脚本并非如此,它是 100% 口语自然语言我需要继续努力。你有什么想法我该怎么做?我确实有一个关键字列表,表示是跟随一个示例还是解释了一个概念,但我是手动执行此操作,这肯定不是我想要为 563 个文件执行的操作,因为它可能会变得更多。
此外,我想将找到的主题与本体联系起来,以丰富每个文件的元数据。我也不知道如何处理这个问题。任何建议将不胜感激。
如果我的解释没有意义,请原谅我。我对术语不太熟悉。因此,如果您还解释了您使用的一些术语,我也会很感激。请就我可以尝试的算法提出建议。