在 Python NLP 中将单词转换为一个热向量的包/函数

数据挖掘 机器学习 Python nlp
2022-03-09 14:29:27

NLP 中是否有一个包或函数可用于将单词转换为一个热向量。

谢谢你。

1个回答

有几种方法可以将单词转换为一个热编码向量。由于我不知道您存储数据的数据结构。我想这将是一个列表

from keras.preprocessing.text import Tokenizer
samples = ['The', 'dog','mouse','elephant']
tokenizer = Tokenizer(num_words=len(samples))

这建立了单词索引

tokenizer.fit_on_texts(样本)

一个热门代表

one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')

通过将模式从二进制更改为“tfidf”或“计数”,您可以制作任何类型的矩阵,除了一个热矩阵。

您可以使用 sklearn 等其他软件包获得相同的结果。但它确实涉及更多的代码行。