我们正在开发一个分类系统,其中类别是固定的,但其中许多是相互关联的。
例如,我们有一个名为 " roads" 的类别和另一个名为 " traffic" 的类别。我们相信模型会被文本样本混淆,文本样本可能在roads类别中,也可能在traffic.
我们的一些文本样本也适用于多类标签。例如,“人行道附近有一个垃圾堆。人行道完全坏了”。该文本可以分类为garbage桶或footpath桶。
我们将通过手动注释文本来为这个分类器构建一个训练集。那么,我们可以为一个问题贴多个标签吗?我们应该如何处理带有多个标签的文本呢?是否应该将它们添加到它所标记的所有类别中,作为训练样本?
例如,“人行道附近有一个垃圾堆。人行道完全坏了”。该文本可以分类为garbage桶或footpath桶。那么,是否应该将此文本添加为garbage 和的训练样本footpath?我们应该如何考虑标签?
你能提供你的见解吗?