来自 SpaCy 和 NLTK 的句子没有发现典型缩写(例如德语中的Mio.
for Million
)和由此产生的句子拆分不正确的事实。我知道句子应该简单快捷,但我想知道是否有更好的句子可以考虑比大写单词和标点符号更多的东西?或者,如何让 SpaCy / NLTK / ... sentencer 为这样的句子工作?
我主要对使用 Python API 的语句器感兴趣。
来自 SpaCy 和 NLTK 的句子没有发现典型缩写(例如德语中的Mio.
for Million
)和由此产生的句子拆分不正确的事实。我知道句子应该简单快捷,但我想知道是否有更好的句子可以考虑比大写单词和标点符号更多的东西?或者,如何让 SpaCy / NLTK / ... sentencer 为这样的句子工作?
我主要对使用 Python API 的语句器感兴趣。
在Universal Dependencies 语料库上训练的神经工具使用学习模型进行标记化和句子分割。我知道的两个是:
然而,与基于正则表达式的句子分割相比,它们相当慢。