我目前正在尝试从一组 200k 科学摘要中获取用于生成 BoW 向量的词汇表。
我已经对标记进行了一些基本过滤,例如小写、停用词删除、词干提取、不采用大小 < 2 的标记、留下可以转换为数字的标记等等。但是我仍然计算了超过 121k 个不同的令牌,这对我来说似乎很多。
由于我对这一切都很陌生,我想知道是否存在这样的词汇量平均应该有多大的指导方针,甚至可能取决于原始领域。
我目前正在尝试从一组 200k 科学摘要中获取用于生成 BoW 向量的词汇表。
我已经对标记进行了一些基本过滤,例如小写、停用词删除、词干提取、不采用大小 < 2 的标记、留下可以转换为数字的标记等等。但是我仍然计算了超过 121k 个不同的令牌,这对我来说似乎很多。
由于我对这一切都很陌生,我想知道是否存在这样的词汇量平均应该有多大的指导方针,甚至可能取决于原始领域。
我认为对此没有任何明确的答案,这取决于您的特定域。这是我的做法:
最后,您可以随时检查您的标记索引,以找出您有多少词汇外的单词。如果这个数字对你来说似乎足够合理,那么你就继续前进,否则你将你的基线数字扩大一点。