关于从(主要是)文本文档中分割非文本内容的任何研究?

数据挖掘 机器学习 nlp 文本挖掘
2022-03-07 08:54:21

文档,尤其是技术文档,通常包含块中的非文本内容(代码片段、操作系统命令等)。是否有任何有效的方法来识别这些块的开始和结束行?

1个回答

虽然到目前为止我还没有实现它,但我很确定自然语言文本与代码片段很容易:

对于每个块,您将字符的分布与真实自然语言文本与代码进行比较。请参阅我的论文The WiLI benchmark dataset for writing language Identification,第 4 页“单字符频率分析”。