使用 Keras 进行字符级别的一种热编码

数据挖掘 喀拉斯 文本 编码
2022-02-25 08:38:17

我现在正在阅读 Chollet 关于深度学习的书,在 NLP 章节中他说:

Note that Keras has built-in utilities for doing one-hot encoding of text at the word level or character

我研究了 Keras 方法,但找不到他指的是哪个功能。keras.utils.to_categorical在这里似乎并不直接适用,因为它需要int输入。

我想为一个小型 RNN 项目在字符级别有效地编码一些文本:我可以在那里使用什么?

1个回答

我认为您正在寻找带有 char_level=True 标志的 keras Tokenizer:

from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(char_level=True)
tokenizer.fit_on_texts(your_dataset_train)
sequence_of_int = tokenizer.texts_to_sequences(your_dataset_train_or_test)

现在您有了整数序列,您可以使用keras.utils.to_categorical=)