是否有关于书面文本自动标点的论文?

人工智能 机器学习 自然语言处理 参考请求
2021-11-12 23:32:40

我正在构建一个系统,该系统应该采用没有标点符号的文本并自动添加标点符号。

我发现了一些关于自动标点符号的论文,但它们大多是关于口语理解的,它们使用诸如韵律之类的线索来检测标点符号的潜在位置。在我的情况下,输入是书面文本。是否有关于书面文本自动标点的论文?

我目前的想法是将每个标点符号视为一个类(., ,, ;, :, ?, !, ?!)并为“无标点符号”添加一个类。然后,使用例如 LSTM 并将每个单词分类到其中一个类中。另一种方法是首先使用二元分类器检测应该有标点符号的单词,然后仅对标点符号使用多类分类器,以选择正确的标记。如果有的话,哪些方法是好的?

1个回答

您列出的这两个选项中的任何一个似乎都适用于这种情况。其次,你首先有一个二元分类器,至少会更有效率,因为你的更深的网络(或你使用的任何分类器)不需要处理那么多。

看起来你有一个不错的想法,从这里去哪里,我有兴趣看看这会发生什么!当您取得一些进展时更新我们。