这个问题与哪种机器学习/人工智能方法有关?

数据挖掘 机器学习 数据挖掘 文本挖掘
2022-02-26 15:30:00

我是机器学习和人工智能的新手,我正在解决一个需要清理文本/单词表(数据库)的问题。例如,我应该删除 and, the, etc. 之类的词,或者将 COMP 之类的词替换为 company 或用合适的词替换其他首字母缩略词。我想找到一些关于为此目的提出的技术的资源,并找到我还能做些什么来更好地清理桌子。谢谢你的帮助。

1个回答

例如,我应该删除像and、the等这样的词......

在自然语言处理中,第一个任务称为停用词去除。您可以通过查看单词在文档中的频率来识别它们;无意义的词经常出现。