如何从单个连接的单词中提取单词?

数据挖掘 nlp 文本挖掘 词嵌入 伯特 斯派西
2022-03-10 18:29:25

我被困在这个问题上,并希望得到一些意见。

我有多个单词,例如getExtentiongetPathsomeWordsomeword,我想将每个连接的单词分成自己的单词,例如:

获取扩展 ---> [获取][扩展]。

someword --> [some][word]。

连接的单词也可以是所有小写字母。

你们有什么想法我能做到这一点吗?

1个回答

可以使用依赖拼写检查器的包来找到最佳的拆分方式,例如:https ://pypi.org/project/compound-word-splitter/