我正在尝试真正理解机器学习中的标记化和矢量化文本,并且正在努力研究 Keras Tokenizer 类。我了解它的使用机制,但我想真正了解它的更多信息。例如,有一个常见的用法:
tokens = Tokenizer(num_words=SOME_NUMBER)
tokens.fit_on_texts(texts)
标记返回一个 word_index,它将单词映射到某个数字。这些单词是文本中的所有单词,还是最多 SOME_NUMBER?word_index 的字典值是每个单词的频率,还是只是单词的顺序?