机器学习/文本分析/算法指针

数据挖掘 机器学习 r 算法 学习
2022-02-14 14:58:29

由于我对机器学习或算法不太熟悉,因此我正在寻找正确方向的参考或点。我更喜欢在 R 中工作,但我也可以使用 Python。对我可以使用的特定包的任何引用都会很棒。

所以我有一份参议院法案清单及其描述,只有一两句话。我有一部分账单也附有账单类型(即“预算”、“移民”等)。我想创建一个算法,将账单类型分配给没有账单类型的其他账单子集。

我希望能够通过使用第一个子集的描述和账单类型之间的基础关系来做到这一点,并将其应用于第二个子集,以便我可以从账单描述中预测账单类型。这有意义吗?任何的建议都受欢迎!

1个回答

是的,这绝对有道理。这是一个常见的 NLP(自然语言处理)问题。您应该使用除了 LSTM(长短期记忆)和深度神经网络之外的词嵌入模型。实际上,首先您应该使用 word2vec 将每个单词表示为一个固定维度(例如 100)的向量。然后你应该建立一个深度神经网络架构。这个网络的输入是每个账单的词向量,它们连接起来形成向量序列。该网络的输出是一个标签,表明您正在考虑哪种类型的账单。我强烈建议您使用Keras这是处理深度学习和 NLP 的一个很棒的 python 包。此外,您可以使用现有的 word2vec 集合,其中包含一种语言(例如英语)的大多数单词的向量表示。例如,您可以使用 GoogleNews word2vec 集。