我正在寻找一种特定的深度学习方法,该方法可以训练具有干净标签和噪声标签的神经网络模型。
更准确地说,我希望这种方法也能够利用噪声数据,例如通过不完全“信任”噪声数据,或加权样本,或决定是否完全使用特定样本进行学习。但主要是,我在寻找灵感。
细节:
- 我的任务是序列到序列的 NLP,
- 我有一对干净的序列
(clean input, clean output)
和嘈杂的序列(noisy_input, noisy_output)
, - 我确定我的数据中的哪些样本是嘈杂的,如果可能的话,我想要使用这些信息的所需方法
如果需要,我很高兴提供有关我的用例的更多信息。
编辑:嘈杂与负面示例
首先,我不会在这里使用“嘈杂”这个词,因为如果您知道哪些实例是“错误的”,那么这些就不是噪音,它们是负面的例子。
我的观点是,我拥有的数据是嘈杂的例子,但不是“负面的”。使用从德语到英语的机器翻译示例:
干净(等价的意思)
DE Wenn es um die Medien geht, lebt Amerika in einem Paralleluniversum.
EN Regarding media, the US are living in a parallel universe.
嘈杂(意思是重叠)
DE Wenn es um die Medien geht, lebt Amerika in einem Paralleluniversum.
EN Regarding media, the US are weird.
消极的(不相关的)
DE Wenn es um die Medien geht, lebt Amerika in einem Paralleluniversum.
EN Is Math related to science?