BoW 词汇量指南

数据挖掘 文本挖掘
2022-03-13 01:17:31

我目前正在尝试从一组 200k 科学摘要中获取用于生成 BoW 向量的词汇表。

我已经对标记进行了一些基本过滤,例如小写、停用词删除、词干提取、不采用大小 < 2 的标记、留下可以转换为数字的标记等等。但是我仍然计算了超过 121k 个不同的令牌,这对我来说似乎很多。

由于我对这一切都很陌生,我想知道是否存在这样的词汇量平均应该有多大的指导方针,甚至可能取决于原始领域。

1个回答

我认为对此没有任何明确的答案,这取决于您的特定域。这是我的做法:

  1. 英语包含大约 20,000 个单词(或至少是最常见的),所以我将其用作基线
  2. 我扩展了这个数字来解释一些常见的拼写错误
  3. 我的数据是否包含表情符号等特殊内容?表情符号仍然可以传达意义,所以我扩大了词汇量以包括去表情符号的文本
  4. 我的数据是否包含专业文本,如科学和/或学术术语?我基于此扩展我的基线数。

最后,您可以随时检查您的标记索引,以找出您有多少词汇外的单词。如果这个数字对你来说似乎足够合理,那么你就继续前进,否则你将你的基线数字扩大一点。