数据挖掘 - 我可以在附加不同标签的训练时多次使用训练行吗？ - 吾爱随笔录

数据挖掘机器学习分类数据挖掘多类分类训练

2021-10-08 14:44:34

如果我有一个数据集，其中每条短信都相同，但给出了两个标签。可能只填写了一个标签。为了在现实生活中形象化这种场景，可以将口音分类为“美国英语”和“英国英语”。

这是一个示例，其中每个文本最多给出 2 个情绪值。

现在，我必须为给定的文本列预测 SINGLE 情绪列。

我可以为训练目的创建如下训练数据集吗？这样做有什么困难？

编辑：我的重点不是为给定的文本选择一个类，而是决定将该文本两次包含在不同的类中。

2个回答

您描述的问题是Fuzzy Logic的完美用例。

与事物要么是黑色要么是白色的布尔逻辑相反，模糊逻辑允许事物是灰色的。

以天气为例。给定一个温度，有些人可能会说它是冷的，而另一些人会说它是温暖的。会有人都说冷的情况，但也有不分类的中期 $\{0,1\}$ 反而 $[0,1]$ .

因此，鉴于您选择的算法允许概率输出，这将不是问题。

所以给出温度的例子。你有课[cold, warm, hot]。如果您的算法只能输出二进制分类（例如[0, 1, 0]），那么最好只输入只有 1 个标签的数据点。但是，如果您的算法可以输出概率分类（例如[0.2, 0.7, 0.1]），那么您可以输入具有多个标签的相同数据点。

最后，您可以选择概率最大的类，但您需要了解这可能不会给出您期望的输出。如果你得到一个分类[0.49, 0.51, 0.0]，你可能会说是第 2 类，而实际上模型并没有真正告诉你。

我认为这样做没有问题。但是，我要做的是聚合。也就是说，我会采用每个独特的文本并用它创建一个独特的实例。问题仍然在于我会联想到哪种情绪。我会用中位数来做，因为它比平均值更稳健。也就是说，如果我有以下内容：

我会将其汇总为：

这是为了给重复出现多次的文本和只出现一次的文本赋予相同的重要性。原则上，它们应该同等重要，因此没有任何理由让它们中的一个更多地出现在你的学习算法中。如果一个实例在学习算法中出现多次，则成本函数受该实例的影响比其他实例大得多，我认为在这种情况下这不是你想要的。

编辑

我不确定您的问题是否说每个实例最多出现两次。在这种情况下，中位数与均值相同，因此您可以与均值聚合。

其它你可能感兴趣的问题