数据挖掘 - NLP：文本的变体而不修改其含义 - 吾爱随笔录

NLP：文本的变体而不修改其含义

数据挖掘 nlp 神经风格迁移

2021-09-29 12:28:08

我目前正在研究周期性报告的自动化（每周 30-50 页报告，大约 100 个地区）。这些报告的形式大多是固定的：地图、图表、数据表和小文本区域。

除了关于颜色和图例的一些讨论之外，自动化地图/图形/表格的生成并不难。（如果你想知道，我与 Rmarkdown 合作）

然而，对于文本来说，像在 markdown 中写 'r value' 以在文本内部生成变量值这样的简单方法感觉“过于自动化”。报告最终有十句话，例如“上一季度（QX 201X）总结果为 XXX（与上一年同一季度相比增长 +X%）。”

我想在不修改其含义的情况下获得该短语的自动变体。我最终自己写了六种变体。但是（1）它仍然感觉重复和不自然，并且（2）对报告的每个短语都这样做可能需要很多时间。

我们已经看到了许多在为视觉表示而转移事物方面的非凡之处（参见：https ://en.wikipedia.org/wiki/Neural_Style_Transfer ）。所以我想知道我们是否对 NLP 有类似的东西，这将允许使用不同的“风格”（在我的例子中是中性风格 - 或没有风格 - ）重写文本，保持它的主要内容。我在该主题上找到的主要论文的标题是“文本的样式迁移有什么问题？' 并说明了为什么样式转换对文本不起作用。鉴于（1）约束（保持相同的含义）和（2）它的形式主义（我知道应该显示哪个数字），我觉得问题可能比整个风格转移更简单。

知道从哪里开始自动编写文本的变体，同时保持其含义不变吗？

2个回答

文本摘要可以分为两类 1. 抽取式摘要和 2. 抽象式摘要

提取摘要：这些方法依赖于从一段文本中提取几个部分，例如短语和句子，并将它们堆叠在一起以创建摘要。因此，在提取方法中识别正确的句子进行摘要是最重要的。
Abstractive Summarization：抽象方法基于语义理解来选择单词，即使这些单词没有出现在源文档中。它旨在以一种新的方式生产重要的材料。他们使用先进的自然语言技术解释和检查文本，以生成一个新的较短的文本，从原始文本中传达最关键的信息。

您正在寻找的是抽象摘要。由于您在 R 中工作，因此有一个名为lexRank的不错的库，从这里举个例子看起来像

#load needed packages
library(xml2)
library(rvest)
library(lexRankr)

#url to scrape
monsanto_url = "https://www.theguardian.com/environment/2017/sep/28/monsanto-banned-from-european-parliament"
   
#read page html
page = xml2::read_html(monsanto_url)
#extract text from page html using selector
page_text = rvest::html_text(rvest::html_nodes(page, ".js-article__body p"))

#perform lexrank for top 3 sentences
top_3 = lexRankr::lexRank(page_text,
                          #only 1 article; repeat same docid for all of input vector
                          docId = rep(1, length(page_text)),
                          #return 3 sentences to mimick /u/autotldr's output
                          n = 3,
                          continuous = TRUE)

#reorder the top 3 sentences to be in order of appearance in article
order_of_appearance = order(as.integer(gsub("_","",top_3$sentenceId)))
#extract sentences in order of appearance
ordered_top_3 = top_3[order_of_appearance, "sentence"]

> ordered_top_3
[1] "Monsanto lobbyists have been banned from entering the European parliament after the multinational refused to attend a parliamentary hearing into allegations of regulatory interference."
[2] "Monsanto officials will now be unable to meet MEPs, attend committee meetings or use digital resources on parliament premises in Brussels or Strasbourg."                                
[3] "A Monsanto letter to MEPs seen by the Guardian said that the European parliament was not “an appropriate forum” for discussion on the issues involved."

编辑：我喜欢如何思考抽象摘要：Y

对 seq2seq 问题使用编码器-解码器架构（使用转换器扩展），您基本上可以获得文本的嵌入，其中相同的句子可以在不同的上下文中以不同的方式嵌入，从而提供相同/相似的输出。

文本样式转换的论文列表：

https://github.com/fuzhenxin/Style-Transfer-in-Text

其它你可能感兴趣的问题

上一篇对数据科学或预测建模职业的一些建议下一篇Python中的数据匿名化