我正在学习 Han、Kamber 和 Pei 的“数据挖掘:概念和技术”。在第 12 章“异常值检测”中,他们指出异常值有 3 种类型:
- 全局异常值 - 显着偏离数据集的其余部分
- 上下文异常值 - 相对于对象的特定上下文显着偏离
- 集体异常值 - 单个数据对象可能不是异常值,但对象作为一个整体显着偏离整个数据集。
根据作者的说法:
“今天的温度是 28 摄氏度。是否异常(即异常值)?” 例如,这取决于时间和地点!如果是在多伦多的冬天,是的,这是一个异常值。如果是多伦多的夏日,那是正常的。与全局异常值检测不同,在这种情况下,今天的温度值是否为异常值取决于上下文——日期、位置以及可能的其他一些因素。在给定的数据集中,如果数据对象相对于对象的特定上下文显着偏离,则该数据对象是上下文异常值。上下文异常值也称为条件异常值,因为它们以所选上下文为条件。因此,在上下文异常值检测中,必须将上下文指定为问题定义的一部分。
我的问题:上下文异常值是否与全局异常值相同,其中描述每个数据对象的原始特征向量可能必须扩展以包含一些其他属性(有关“上下文”的信息)?显然,如果数据对象不包含足够的属性,它们永远不能被归类为异常值!这也适用于全球异常值。所以对我来说,形成一个新的异常值类别作为上下文异常值是没有意义的。