如果我有一个数据集,其中每条短信都相同,但给出了两个标签。可能只填写了一个标签。为了在现实生活中形象化这种场景,可以将口音分类为“美国英语”和“英国英语”。
这是一个示例,其中每个文本最多给出 2 个情绪值。
- 文字 - 情绪 - 情绪
- 罗恩是个很和蔼可亲的人 - 5 - 4
- 那不是享受的地方 - 1
- 丽塔不是那么关心 - 1 - 2
现在,我必须为给定的文本列预测 SINGLE 情绪列。
我可以为训练目的创建如下训练数据集吗?这样做有什么困难?
- 文本 - 情绪
- 罗恩是个很和蔼的人 - 5
- 罗恩是个很和蔼可亲的人 - 4
- 那不是享受的地方 - 1
- 丽塔不是那么关心 - 1
- 丽塔不是那么关心 - 2
编辑:我的重点不是为给定的文本选择一个类,而是决定将该文本两次包含在不同的类中。
