数据挖掘 - BoW 词汇量指南 - 吾爱随笔录

数据挖掘文本挖掘

2022-03-13 01:17:31

我目前正在尝试从一组 200k 科学摘要中获取用于生成 BoW 向量的词汇表。

我已经对标记进行了一些基本过滤，例如小写、停用词删除、词干提取、不采用大小 < 2 的标记、留下可以转换为数字的标记等等。但是我仍然计算了超过 121k 个不同的令牌，这对我来说似乎很多。

由于我对这一切都很陌生，我想知道是否存在这样的词汇量平均应该有多大的指导方针，甚至可能取决于原始领域。

1个回答

我认为对此没有任何明确的答案，这取决于您的特定域。这是我的做法：

最后，您可以随时检查您的标记索引，以找出您有多少词汇外的单词。如果这个数字对你来说似乎足够合理，那么你就继续前进，否则你将你的基线数字扩大一点。

其它你可能感兴趣的问题