我有一个配置文件数据集,其中包含描述许多个人工作历史的自由格式文本。
我想尝试在一组配置文件中识别常用词或词组,以便我可以建立与配置文件相关的分类(技能)。
例如,如果“转化率优化”一词在所有配置文件中一起出现 300 次,我会在我的列表中将其视为高频关键词。我希望能够根据单个关键字、2 个单词和 3 个单词字符串过滤列表。
然后,我将能够手动挑选出与技能相关的常用关键词,这些关键词可以添加到主分类列表中。
我还需要一些过滤掉无效词的方法,比如('I','and'等)
完成这样的事情的最佳方法是什么?