数据挖掘 - 将句子中的单词转化为向量形式来准备模型 - 吾爱随笔录

数据挖掘机器学习 Python 监督学习

2022-02-22 06:26:03

我想构建一个简单的分类器来分类文本是 aquestion还是只是 a simple message。我了解逻辑回归，并且可以创建一个简单的神经网络。

我有英语、日语、韩语、泰语的标记输入数据。在将数据输入分类器之前如何转换这些数据？

1个回答

一种方法是根据它们出现的频率（即它们的“频率”）对数据中的所有单词进行分类。之后，选择数据集中最常用的“X”个词，将它们用于数据集的分类。

假设您正在使用 Python 和 Keras，您应该使用嵌入层。有关如何使用该层的更多详细信息，请查看此。

简而言之，该层所做的是将输入映射到高维向量域。一个词被转换为一个实值向量，词的相似性通过两个词向量在高维向量空间中的“接近度”来评估。

还要确保您的数据集包含固定长度的文本，方法是截断长序列或零填充短序列。

完成所有这些之后，您可以使用 LSTM 神经元作为文本分类器来训练循环神经网络。由于其固有的记忆，LSTM 已被证明在文本处理中非常成功。

可以在这里找到演示以上所有内容的动手 Python/Keras 教程，我相信它会很有帮助:)

其它你可能感兴趣的问题