NLP:文本的变体而不修改其含义

数据挖掘 nlp 神经风格迁移
2021-09-29 12:28:08

我目前正在研究周期性报告的自动化(每周 30-50 页报告,大约 100 个地区)。这些报告的形式大多是固定的:地图、图表、数据表和小文本区域。

除了关于颜色和图例的一些讨论之外,自动化地图/图形/表格的生成并不难。(如果你想知道,我与 Rmarkdown 合作)

然而,对于文本来说,像在 markdown 中写 'r value' 以在文本内部生成变量值这样的简单方法感觉“过于自动化”。报告最终有十句话,例如“上一季度(QX 201X)总结果为 XXX(与上一年同一季度相比增长 +X%)。”

我想在不修改其含义的情况下获得该短语的自动变体。我最终自己写了六种变体。但是(1)它仍然感觉重复和不自然,并且(2)对报告的每个短语都这样做可能需要很多时间。

我们已经看到了许多在为视觉表示而转移事物方面的非凡之处(参见:https ://en.wikipedia.org/wiki/Neural_Style_Transfer )。所以我想知道我们是否对 NLP 有类似的东西,这将允许使用不同的“风格”(在我的例子中是中性风格 - 或没有风格 - )重写文本,保持它的主要内容。我在该主题上找到的主要论文的标题是“文本的样式迁移有什么问题?' 并说明了为什么样式转换对文本不起作用。鉴于(1)约束(保持相同的含义)和(2)它的形式主义(我知道应该显示哪个数字),我觉得问题可能比整个风格转移更简单。

知道从哪里开始自动编写文本的变体,同时保持其含义不变吗?

2个回答

文本摘要可以分为两类 1. 抽取式摘要和 2. 抽象式摘要

  1. 提取摘要:这些方法依赖于从一段文本中提取几个部分,例如短语和句子,并将它们堆叠在一起以创建摘要。因此,在提取方法中识别正确的句子进行摘要是最重要的。
  2. Abstractive Summarization:抽象方法基于语义理解来选择单词,即使这些单词没有出现在源文档中。它旨在以一种新的方式生产重要的材料。他们使用先进的自然语言技术解释和检查文本,以生成一个新的较短的文本,从原始文本中传达最关键的信息。

您正在寻找的是抽象摘要。由于您在 R 中工作,因此有一个名为lexRank的不错的库,从这里举个例子看起来像

#load needed packages
library(xml2)
library(rvest)
library(lexRankr)

#url to scrape
monsanto_url = "https://www.theguardian.com/environment/2017/sep/28/monsanto-banned-from-european-parliament"
   
#read page html
page = xml2::read_html(monsanto_url)
#extract text from page html using selector
page_text = rvest::html_text(rvest::html_nodes(page, ".js-article__body p"))

#perform lexrank for top 3 sentences
top_3 = lexRankr::lexRank(page_text,
                          #only 1 article; repeat same docid for all of input vector
                          docId = rep(1, length(page_text)),
                          #return 3 sentences to mimick /u/autotldr's output
                          n = 3,
                          continuous = TRUE)

#reorder the top 3 sentences to be in order of appearance in article
order_of_appearance = order(as.integer(gsub("_","",top_3$sentenceId)))
#extract sentences in order of appearance
ordered_top_3 = top_3[order_of_appearance, "sentence"]

> ordered_top_3
[1] "Monsanto lobbyists have been banned from entering the European parliament after the multinational refused to attend a parliamentary hearing into allegations of regulatory interference."
[2] "Monsanto officials will now be unable to meet MEPs, attend committee meetings or use digital resources on parliament premises in Brussels or Strasbourg."                                
[3] "A Monsanto letter to MEPs seen by the Guardian said that the European parliament was not “an appropriate forum” for discussion on the issues involved."  

编辑:我喜欢如何思考抽象摘要:Y

对 seq2seq 问题使用编码器-解码器架构(使用转换器扩展),您基本上可以获得文本的嵌入,其中相同的句子可以在不同的上下文中以不同的方式嵌入,从而提供相同/相似的输出。

文本样式转换的论文列表: