带噪声标签的学习方法

数据挖掘 深度学习 nlp 序列到序列 噪音
2022-02-22 15:36:10

我正在寻找一种特定的深度学习方法,该方法可以训练具有干净标签和噪声标签的神经网络模型。

更准确地说,我希望这种方法也能够利用噪声数据,例如通过不完全“信任”噪声数据,或加权样本,或决定是否完全使用特定样本进行学习。但主要是,我在寻找灵感。

细节:

  • 我的任务是序列到序列的 NLP,
  • 我有一对干净的序列(clean input, clean output)和嘈杂的序列(noisy_input, noisy_output)
  • 我确定我的数据中的哪些样本是嘈杂的,如果可能的话,我想要使用这些信息的所需方法

如果需要,我很高兴提供有关我的用例的更多信息。

编辑:嘈杂与负面示例

首先,我不会在这里使用“嘈杂”这个词,因为如果您知道哪些实例是“错误的”,那么这些就不是噪音,它们是负面的例子。

我的观点是,我拥有的数据是嘈杂的例子,但不是“负面的”。使用从德语到英语的机器翻译示例:

干净(等价的意思)

DE Wenn es um die Medien geht, lebt Amerika in einem Paralleluniversum.
EN Regarding media, the US are living in a parallel universe.

嘈杂(意思是重叠)

DE Wenn es um die Medien geht, lebt Amerika in einem Paralleluniversum.
EN Regarding media, the US are weird.

消极的(不相关的)

DE Wenn es um die Medien geht, lebt Amerika in einem Paralleluniversum.
EN Is Math related to science?
1个回答

首先,我不会在这里使用“嘈杂”这个词,因为如果您知道哪些实例是“错误的”,那么这些就不是噪音,它们是负面的例子。在我看来,“嘈杂”是指正面和负面案例以一种难以(或不可能)区分它们的方式混合在一起。我认为这很重要,因为您更有可能使用此术语找到类似的用例和相关方法。

我没有建议的精确方法,但我会检查机器翻译的最新技术:它也是一个序列到序列的任务,其中存在潜在的正面/负面情况。特别是在 MT 质量估计方面已经做了一些工作,其目标是预测句子翻译的质量。这可能是相关的,因为它是关于标记或量化翻译的好坏,我认为有些作品会重复使用标记/评分的翻译(包括可能错误的翻译)以获得更好的模型。不幸的是我没有任何指示,因为我最近没有关注这个领域。