文档,尤其是技术文档,通常包含块中的非文本内容(代码片段、操作系统命令等)。是否有任何有效的方法来识别这些块的开始和结束行?
关于从(主要是)文本文档中分割非文本内容的任何研究?
数据挖掘
机器学习
nlp
文本挖掘
2022-03-07 08:54:21
1个回答
虽然到目前为止我还没有实现它,但我很确定自然语言文本与代码片段很容易:
对于每个块,您将字符的分布与真实自然语言文本与代码进行比较。请参阅我的论文The WiLI benchmark dataset for writing language Identification,第 4 页“单字符频率分析”。
其它你可能感兴趣的问题