例如,对于时尚领域的特定神经网络,其关键字为light、dress、orange、cotton。它可以输出:这款华丽的橙色夏装非常适合在阳光明媚的露营日穿着。它是纯棉面料,穿起来很舒服。
有人可以建议实现这一目标的最简单方法吗?
例如,对于时尚领域的特定神经网络,其关键字为light、dress、orange、cotton。它可以输出:这款华丽的橙色夏装非常适合在阳光明媚的露营日穿着。它是纯棉面料,穿起来很舒服。
有人可以建议实现这一目标的最简单方法吗?
这是 NLG 的区域。您可以使用基于模板的文本生成技术,其中您定义了输出文本的结构并根据关键字填写所需的空白区域。该技术用于报告生成。一个例子是叙事科学公司。
其他方法可以使用 OpenAI GPT 。示例是在 Python 中使用 OpenAIGPT2 生成文本 。您可能需要根据您的要求调整代码。
释义可以是另一种技术。释义的一个例子是 - https://github.com/vsuthichai/paraphraser
如前所述,这是一项NLG(自然语言生成)任务。语言生成器通常基于 RNN 技术,有时与 CNN 混合使用。Transformer 模型达到了 SOTA,但它们的计算成本非常高,从头开始训练可能会出现问题。
如何实现模型
该任务必须基于一组使用某种词向量处理的关键字:word2vec 和 glove 是经典的,可能正是您需要的。(BERT 和其他上下文嵌入在这种情况下没有意义,因为关键字没有实际的句子上下文。)这些词向量可以用 CNN 和/或 RNN 层处理;你的模型的输出可能是一个 LSTM 层,它有一个 softmax 输出,一次一个单词,依次“写入”句子。
如何构建数据集
您可能可以通过在某处获取一些已经完整的句子来构建自己的数据集,使用标准 NLP 技术(例如 PoS 标记和 NER)提取其关键字,并训练一个模型来反转该过程,即从关键字到完整的句子。我不知道这个域名找到正确的来源,可能是网络抓取正确的时尚网站。
如果你想买重的东西
您可以采取的另一种非常奇特的步骤是将您的模型变成 GAN,并使用句子生成器试图欺骗鉴别器。这可能是一个很好的性能提升。但这在开始时不是必需的,在基本模型正常工作之前我不会专注于此。
这不是一个简单的项目,但在你的简历上放一些很酷的东西。祝你好运!