我正在构建一个系统,该系统应该采用没有标点符号的文本并自动添加标点符号。
我发现了一些关于自动标点符号的论文,但它们大多是关于口语理解的,它们使用诸如韵律之类的线索来检测标点符号的潜在位置。在我的情况下,输入是书面文本。是否有关于书面文本自动标点的论文?
我目前的想法是将每个标点符号视为一个类(.
, ,
, ;
, :
, ?
, !
, ?!
)并为“无标点符号”添加一个类。然后,使用例如 LSTM 并将每个单词分类到其中一个类中。另一种方法是首先使用二元分类器检测应该有标点符号的单词,然后仅对标点符号使用多类分类器,以选择正确的标记。如果有的话,哪些方法是好的?