数据挖掘 - 理解 Keras 中 Tokenizer 的 num_words 的作用 - 吾爱随笔录

理解 Keras 中 Tokenizer 的 num_words 的作用

数据挖掘喀拉斯标记化

2021-09-18 16:29:56

考虑以下代码：

from keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words = 5000)
tokenizer.fit_on_texts(texts)
print('Found %d unique words.' % len(tokenizer.word_index))

当我运行它时，它会打印：

Found 88582 unique words.

我的问题是，num_words控制映射字典中单词数量的参数不是称为tokenizer.word_index吗？那为什么88582当我明确要求它只保留单词时它仍然保留5000单词？

1个回答

问题在于记录事物的方式。检查此链接： https ://stackoverflow.com/questions/46202519/keras-tokenizer-num-words-doesnt-seem-to-work

其它你可能感兴趣的问题

上一篇在多语种情感语料库上下一篇在处理文本数据时，在什么情况下词形还原不是一个明智的步骤？