如何在 tm_map 中使用 hunspell_stem(或普通函数)?

数据挖掘 r 文本挖掘
2022-02-24 04:04:36

最近我一直在做一些文本挖掘,词干处理需要很多时间(我正在使用葡萄牙语)。

我找到了hunspell提供拼写检查、更正和词干提取的软件包。

此外,一位朋友开发了我一直在研究的另一个词干提取功能(RSLP:Removedor de Sufixos da Língua Portuguesa)。

但是两者都是在 char 向量上工作的,我需要让它们与tm_map读取语料库的函数一起工作。

我知道要使它们起作用,我需要将语料库上的文档拆分为单个单词,但我不知道如何。

0个回答
没有发现任何回复~