数据挖掘 - 智能句子分割不拆分缩写 - 吾爱随笔录

智能句子分割不拆分缩写

数据挖掘 Python nlp 预处理 nltk 斯派西

2022-02-07 11:23:43

来自 SpaCy 和 NLTK 的句子没有发现典型缩写（例如德语中的Mio.for Million）和由此产生的句子拆分不正确的事实。我知道句子应该简单快捷，但我想知道是否有更好的句子可以考虑比大写单词和标点符号更多的东西？或者，如何让 SpaCy / NLTK / ... sentencer 为这样的句子工作？

我主要对使用 Python API 的语句器感兴趣。

1个回答

在Universal Dependencies 语料库上训练的神经工具使用学习模型进行标记化和句子分割。我知道的两个是：

UDPipe – 在布拉格的查尔斯大学开发。获得非常好的结果（至少在解析方面），但 API 有点不直观。
Stanza – 在斯坦福大学开发。API 与 Spacy 非常相似。

然而，与基于正则表达式的句子分割相比，它们相当慢。

其它你可能感兴趣的问题

上一篇对于没有截距的线性模型，为什么 one-hot 编码中的冗余项起到截距的作用？下一篇确定机器学习模型在特征稳定性方面是否过拟合