tensorflow中的文本主题分类

数据挖掘 Python 分类 张量流 美国有线电视新闻网
2021-10-15 07:11:49

我想创建一个执行以下操作CNNtensorflow内容:对食谱标题进行分类并找出主题。比如super yummy cheesy cake应该导致cheese cake等。

我想和 一起去tensorflow,但需要一些帮助才能开始。

我的策略是这样的:

  1. 规范化标题,例如,cheesy变成cheesecheesecake变成cheese cake等等。
  2. 拥有如下数据集:

    • super yummy cheesecake | cheese cake
    • summer strawberry cake | strawberry cake
  3. 训练模型以了解什么对主题很重要,什么只是附加信息。

数据集建模的方式,据我所知,我没有静态标签。这让事情变得复杂,对吧?

由于这是我的第一个 AI 实验tensorflow,我真的不知道这是否会奏效,或者我是否应该采用另一种策略,因此我需要你的帮助。

2个回答

对我来说,它看起来根本不是 tensorflow 任务。至少一开始不是。

  1. “规范化标题”任务(词形还原)。Spacy 在这里做得很好,它有很好的文档。是一个例子,看看“引理”属性。

  2. 使用food2vec作为主题名称的数据库。

  3. 通过 spacy 解析句子并在 food2vec 中找到该短语。解析不是逐字逐句,而是按词组进行:首先在字典中查找3个词的词组;如果没有找到 - 2 字词典;超过 1 个字。

这应该足以解决您的任务。

您可以将其构建为类似于翻译和摘要的序列到序列预测模型。这种带有注意力的神经翻译 colab可能是一个非常好的起点。