NLP 中是否有一个包或函数可用于将单词转换为一个热向量。
谢谢你。
NLP 中是否有一个包或函数可用于将单词转换为一个热向量。
谢谢你。
有几种方法可以将单词转换为一个热编码向量。由于我不知道您存储数据的数据结构。我想这将是一个列表
from keras.preprocessing.text import Tokenizer
samples = ['The', 'dog','mouse','elephant']
tokenizer = Tokenizer(num_words=len(samples))
这建立了单词索引
tokenizer.fit_on_texts(样本)
一个热门代表
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')
通过将模式从二进制更改为“tfidf”或“计数”,您可以制作任何类型的矩阵,除了一个热矩阵。
您可以使用 sklearn 等其他软件包获得相同的结果。但它确实涉及更多的代码行。