我被赋予了以下任务,
自 2010 年以来出现在《印度时报》上的关于艾滋病毒和艾滋病的文章。使用训练您选择的神经网络对它们进行分类。在这些文章中找到模式,分析数据。
我已经完成了抓取部分,但我不知道现在如何处理我提取的数据。我在互联网上搜索了几个小时,但找不到任何帮助。我知道关于神经网络的理论部分,但缺乏在文本上实现它的知识。如果有人可以建议我任何方法或提供一些有用的链接,那将是非常有帮助的。
我被赋予了以下任务,
自 2010 年以来出现在《印度时报》上的关于艾滋病毒和艾滋病的文章。使用训练您选择的神经网络对它们进行分类。在这些文章中找到模式,分析数据。
我已经完成了抓取部分,但我不知道现在如何处理我提取的数据。我在互联网上搜索了几个小时,但找不到任何帮助。我知道关于神经网络的理论部分,但缺乏在文本上实现它的知识。如果有人可以建议我任何方法或提供一些有用的链接,那将是非常有帮助的。
这个任务有很多解决方案。我推荐其中之一。如你所知,单词有关系,如果你选择给每个单词一个特殊的代码,你就不能有这种关系。因此,首先尝试使用嵌入网络为每个单词分配一个代码。然后为每篇文章分配一个标签。接下来,对于每篇文章,您都有一个词、代码序列,这些词现在已嵌入。您可以使用LSTM网络进行分类。
如果您对我提到的概念不是很熟悉,您可能需要查找Word2Vec.
首先,您能告诉我们更多关于分类的信息,比如将文本分类到哪些类别?现在,回答你的问题,
您输入了与 HIV/AIDS 相关的文章的文本句子。现在,您想从中提取信息。为此,您需要一个模型来“理解”文本句子中单词的上下文含义。因此,如果您首先对句子中的单词进行 one-hot 编码,则该模型将表现不佳,因为该编码将不包含有关文本中上下文的任何信息。
要解决这个问题,您需要嵌入层。嵌入层有助于以相似的方式表示具有相似含义的单词。
Word Embeddings 实际上是从文本数据中学习的。256 或 512 维的嵌入很常见。虽然一种热编码会导致你的词集大小的维度,但嵌入在较小的维度中保存了大量信息。
在您的模型中有两种使用它们的方法:
预训练词嵌入的一些示例包括:
-> 手套
-> Word2Vec
->快速文本
使用上述任何方法将文本转换为嵌入后,现在您可以将它们提供给您的神经网络 (RNN/LSTM/CNN) 以执行分类任务。
希望这可以帮助 :)