清理主题的技巧

数据挖掘 数据挖掘 数据集 大数据 数据清理
2022-03-12 11:59:00

我有一组主题如下。

"web based", "web-based" ->带有多余符号 "technology","technologies" ->带有单复数 "learned", "learnt", "learning" ->后缀剥离

您能否推荐一个准确的工具来执行上述任务。

1个回答

对于文本处理,请尝试使用 Python 和NLTK 包

要删除多余的符号,您可以使用正则表达式。安装包're'并使用内置函数re.sub将'-'之类的符号替换为空字符。

对于后缀剥离,您可以再次使用正则表达式或使用 NLTK 包中的内置词干功能。教程应该有所帮助。