重复数据会对模型的性能产生什么影响

数据挖掘 机器学习 深度学习 情绪分析 文本分类
2022-03-11 18:13:47

我知道我的问题非常广泛,正确答案可能取决于各种因素。我想大致了解如果我们的数据集中有重复数据,我们可能会期望什么。假设我们正在尝试做一个sentiment analysis,并且每个文本都会有一个类(pos,neg,neu)。我有意选择了与它们相关联的样本可能label会有所不同,例如标签Are you there.分别。are you there??posneg

这是一个例子:

text.             sentiment
Are you there.    pos
anyone there.     pos
are you there.    pos
Is anybody here?  pos
are you there??   neg
Hello.            neu
Hello?????        neg
agent.            neu
agent please.     pos
get me an agent   neg
human.            neg
agenttttt.        neg
agent.            neg

在我们的数据集中删除重复项是否常见?如果是这样,原因是什么?概念上相同但不遵循相同单词/顺序的样本怎么样(例如agentagent please

如果您能就此分享您的想法,我将不胜感激。

2个回答

一般来说,不建议删除重复项,因为它会修改数据的分布,这可能会使模型产生偏差。换句话说,如果最终应用程序(或任何测试数据)预计会包含类似比例的此类案例,那么最好使用这些案例来训练模型。

所以重复本身不是问题,但是我想说标签中的不一致更烦人。在我看来,示例中显示的所有案例都应该被标记为中性,它们并没有真正表现出任何特定的情绪。使用不同标签对它们进行注释而没有任何明确原因的事实可能会导致模型不一致。

首先,在您带来的问题中,您通常从预处理开始。具体来说,在您的情况下,您需要对其进行规范化。这意味着,使用一些处理,您必须同时更改Are you thereare you there??? 只是你在那里通过这样做,您将在那里删除重复的示例。现在,不像 欧文,我建议一般。原因是你的模型只会学习重要的例子。它也可以很好地概括小数据。那是因为,您的预处理步骤会去除任何会给您的模型带来麻烦的杂质。特别是在深度学习案例中,你必须有很好的例子。仅当您拥有足够多的数据以使您的模型能够准确地捕获单词和单词派生词之间的关系时,不删除它们才有效。例如,您的模型应该在那里那里学习???是相同的给定在场。如果你把它标准化,你就是在为模型做一个巨大的帮助。

其次,正如欧文所指出的,问题中的标签令人担忧。是的,有时,相同的句子用不同的语气说话会产生不同的情绪。在这种情况下,您需要增加有关输入的更多信息以发出信号。那可能是实际声音的几秒钟。如果没有这样的处理,您的模型将变得混乱并且永远不会收敛。