数据挖掘 - 训练神经网络 - 吾爱随笔录

数据挖掘机器学习神经网络深度学习分类 lstm

2021-09-28 06:40:35

我被赋予了以下任务，

自 2010 年以来出现在《印度时报》上的关于艾滋病毒和艾滋病的文章。使用训练您选择的神经网络对它们进行分类。在这些文章中找到模式，分析数据。

我已经完成了抓取部分，但我不知道现在如何处理我提取的数据。我在互联网上搜索了几个小时，但找不到任何帮助。我知道关于神经网络的理论部分，但缺乏在文本上实现它的知识。如果有人可以建议我任何方法或提供一些有用的链接，那将是非常有帮助的。

2个回答

这个任务有很多解决方案。我推荐其中之一。如你所知，单词有关系，如果你选择给每个单词一个特殊的代码，你就不能有这种关系。因此，首先尝试使用嵌入网络为每个单词分配一个代码。然后为每篇文章分配一个标签。接下来，对于每篇文章，您都有一个词、代码序列，这些词现在已嵌入。您可以使用LSTM网络进行分类。

如果您对我提到的概念不是很熟悉，您可能需要查找Word2Vec.

首先，您能告诉我们更多关于分类的信息，比如将文本分类到哪些类别？现在，回答你的问题，

您输入了与 HIV/AIDS 相关的文章的文本句子。现在，您想从中提取信息。为此，您需要一个模型来“理解”文本句子中单词的上下文含义。因此，如果您首先对句子中的单词进行 one-hot 编码，则该模型将表现不佳，因为该编码将不包含有关文本中上下文的任何信息。

要解决这个问题，您需要嵌入层。嵌入层有助于以相似的方式表示具有相似含义的单词。

Word Embeddings 实际上是从文本数据中学习的。256 或 512 维的嵌入很常见。虽然一种热编码会导致你的词集大小的维度，但嵌入在较小的维度中保存了大量信息。

在您的模型中有两种使用它们的方法：

预训练词嵌入的一些示例包括：

-> 手套

-> Word2Vec

->快速文本

使用上述任何方法将文本转换为嵌入后，现在您可以将它们提供给您的神经网络 (RNN/LSTM/CNN) 以执行分类任务。

希望这可以帮助：）

其它你可能感兴趣的问题