最近我一直在做一些文本挖掘,词干处理需要很多时间(我正在使用葡萄牙语)。
我找到了hunspell提供拼写检查、更正和词干提取的软件包。
此外,一位朋友开发了我一直在研究的另一个词干提取功能(RSLP:Removedor de Sufixos da Língua Portuguesa)。
但是两者都是在 char 向量上工作的,我需要让它们与tm_map读取语料库的函数一起工作。
我知道要使它们起作用,我需要将语料库上的文档拆分为单个单词,但我不知道如何。
最近我一直在做一些文本挖掘,词干处理需要很多时间(我正在使用葡萄牙语)。
我找到了hunspell提供拼写检查、更正和词干提取的软件包。
此外,一位朋友开发了我一直在研究的另一个词干提取功能(RSLP:Removedor de Sufixos da Língua Portuguesa)。
但是两者都是在 char 向量上工作的,我需要让它们与tm_map读取语料库的函数一起工作。
我知道要使它们起作用,我需要将语料库上的文档拆分为单个单词,但我不知道如何。