数据挖掘 - 在 Keras Tokenizer 类中， word_index 究竟表示什么？ - 吾爱随笔录

数据挖掘喀拉斯 nlp

2022-02-18 21:07:49

我正在尝试真正理解机器学习中的标记化和矢量化文本，并且正在努力研究 Keras Tokenizer 类。我了解它的使用机制，但我想真正了解它的更多信息。例如，有一个常见的用法：

tokens = Tokenizer(num_words=SOME_NUMBER)
tokens.fit_on_texts(texts)

标记返回一个 word_index，它将单词映射到某个数字。这些单词是文本中的所有单词，还是最多 SOME_NUMBER？word_index 的字典值是每个单词的频率，还是只是单词的顺序？

1个回答

这些单词是文本中的所有单词，还是最多 SOME_NUMBER？

是的，它会在最常用的SOME_NUMBER-1单词上达到最大值。

word_index 的字典值是每个单词的频率，还是只是单词的顺序？

它只是字典中单词的索引。

您可以在文档中阅读更多信息。

其它你可能感兴趣的问题