我想构建一个简单的分类器来分类文本是 aquestion还是只是 a simple message。我了解逻辑回归,并且可以创建一个简单的神经网络。
我有英语、日语、韩语、泰语的标记输入数据。在将数据输入分类器之前如何转换这些数据?
我想构建一个简单的分类器来分类文本是 aquestion还是只是 a simple message。我了解逻辑回归,并且可以创建一个简单的神经网络。
我有英语、日语、韩语、泰语的标记输入数据。在将数据输入分类器之前如何转换这些数据?
一种方法是根据它们出现的频率(即它们的“频率”)对数据中的所有单词进行分类。之后,选择数据集中最常用的“X”个词,将它们用于数据集的分类。
假设您正在使用 Python 和 Keras,您应该使用嵌入层。有关如何使用该层的更多详细信息,请查看此。
简而言之,该层所做的是将输入映射到高维向量域。一个词被转换为一个实值向量,词的相似性通过两个词向量在高维向量空间中的“接近度”来评估。
还要确保您的数据集包含固定长度的文本,方法是截断长序列或零填充短序列。
完成所有这些之后,您可以使用 LSTM 神经元作为文本分类器来训练循环神经网络。由于其固有的记忆,LSTM 已被证明在文本处理中非常成功。
可以在这里找到演示以上所有内容的动手 Python/Keras 教程,我相信它会很有帮助:)