如何将均匀分布的噪声属性添加到数据集中?

机器算法验证 正态分布 异常值 噪音
2022-04-16 00:53:30

我想通过以下相同的方法向我的数据集中添加一些人工异常值。那么,我如何将受污染的数据统计地添加到像 Pima Indians Diabetes 这样的真实数据集中?
信息:皮马印第安人糖尿病:768 个实例 8 个属性
在此处输入链接描述

注意:我想要步骤而不是编程代码。

我们已将均匀分布的属性作为噪声属性添加到数据集 [15]。为了比较我们实验中的异常值检测和误报率,我们根据数据集领域知识(统计特征,如均值、标准差、类分布、属性类型)将 3% 到 5% 的人工异常值植入到真实数据集中。块引用

在此处输入链接描述

1个回答

一种方法是训练一个模型,分别学习每个特征的分布;它可以是每个功能的 KDE。

然后,您可以使用此模型为数据生成异常值。我建议通过从一些特征的平均值生成 4 std 的值来生成异常值,并为其余的生成实际值。这将防止异常值太容易被检测到。