数据挖掘 - 关于从（主要是）文本文档中分割非文本内容的任何研究？ - 吾爱随笔录

数据挖掘机器学习 nlp 文本挖掘

2022-03-07 08:54:21

文档，尤其是技术文档，通常包含块中的非文本内容（代码片段、操作系统命令等）。是否有任何有效的方法来识别这些块的开始和结束行？

1个回答

虽然到目前为止我还没有实现它，但我很确定自然语言文本与代码片段很容易：

对于每个块，您将字符的分布与真实自然语言文本与代码进行比较。请参阅我的论文The WiLI benchmark dataset for writing language Identification，第 4 页“单字符频率分析”。

其它你可能感兴趣的问题