在 Keras Tokenizer 类中, word_index 究竟表示什么?

数据挖掘 喀拉斯 nlp
2022-02-18 21:07:49

我正在尝试真正理解机器学习中的标记化和矢量化文本,并且正在努力研究 Keras Tokenizer 类。我了解它的使用机制,但我想真正了解它的更多信息。例如,有一个常见的用法:

tokens = Tokenizer(num_words=SOME_NUMBER)
tokens.fit_on_texts(texts)

标记返回一个 word_index,它将单词映射到某个数字。这些单词是文本中的所有单词,还是最多 SOME_NUMBER?word_index 的字典值是每个单词的频率,还是只是单词的顺序?

1个回答

这些单词是文本中的所有单词,还是最多 SOME_NUMBER?

是的,它会在最常用的SOME_NUMBER-1单词上达到最大值。

word_index 的字典值是每个单词的频率,还是只是单词的顺序?

它只是字典中单词的索引。

您可以在文档中阅读更多信息