我正在寻找有关如何整理停用词列表的一些提示。有人知道/有人可以推荐一种从数据集本身提取停用词列表以进行预处理和过滤的好方法吗?
数据:
多年来,大量可变长度的人工文本输入(搜索词和整个句子(最多 200 个字符))。该文本包含大量垃圾邮件(例如来自机器人的机器输入、单个单词、愚蠢的搜索、产品搜索……),而且似乎只有一小部分有用。我意识到有时(很少)人们会通过询问非常酷的问题来搜索我的身边。这些问题太酷了,我认为值得深入研究一下,看看人们如何随着时间的推移进行搜索,以及人们对使用我的网站感兴趣的主题。
我的问题:
是我真的在努力进行预处理(即丢弃垃圾邮件)。我已经尝试了一些来自网络的停用词列表(NLTK 等),但这些并不能真正满足我对该数据集的需求。
感谢您的想法和讨论!