我知道我的问题非常广泛,正确答案可能取决于各种因素。我想大致了解如果我们的数据集中有重复数据,我们可能会期望什么。假设我们正在尝试做一个sentiment analysis
,并且每个文本都会有一个类(pos,neg,neu)。我有意选择了与它们相关联的样本可能label
会有所不同,例如标签Are you there.
和分别。are you there??
pos
neg
这是一个例子:
text. sentiment
Are you there. pos
anyone there. pos
are you there. pos
Is anybody here? pos
are you there?? neg
Hello. neu
Hello????? neg
agent. neu
agent please. pos
get me an agent neg
human. neg
agenttttt. neg
agent. neg
在我们的数据集中删除重复项是否常见?如果是这样,原因是什么?概念上相同但不遵循相同单词/顺序的样本怎么样(例如agent
和agent please
)
如果您能就此分享您的想法,我将不胜感激。