数据集中称为哪些点,其中点具有相同的特征但标签不同

数据挖掘 术语
2022-02-18 20:31:00

在数据集中,点具有相同特征但标签不同的点叫什么?

例如,我试图预测某个对象是否是热狗。但我只能访问功能is_wrapped_in_breadhas_meat_in_the_middle.

| object        | is_wrapped_in_bread | has_meat_in_the_middle | is_hotdog |
| salad         | false               | false                  | false     |
| hotdog        | true                | true                   | true      |
| burger        | true                | true                   | false     |
| veggie burger | true                | false                  | false     |

在上面的示例中,burger并且hotdog无法根据可用功能进行区分。有那个名字吗?

1个回答

我不知道有任何具体的术语,但总的来说我会称之为:

  • 噪声数据,通常在这些不一致是由于注释过程中的错误引起的情况下(通常错误的比例远低于正确实例的比例)。
  • 糟糕的数据设计,如果定义实例/特征的方式与 ML 过程的目标不匹配(提供的示例属于此类)。