BNG代表什么

数据挖掘 数据集
2021-10-05 02:28:51

当我查看https://www.openml.org中的可用数据集时,我经常看到一个 BNG 数据集,没有关于它的更多信息。

有人可以解释 BNG 在这种情况下的含义吗?

我对这个数据集特别感兴趣:https ://www.openml.org/d/1389

有没有人更多关于这个数据集来自哪里的信息?

1个回答

贝叶斯网络生成 (BNG) 数据集是一组在 OpenML 上公开可用的人工生成数据集。生成这些数据集是为了满足对大量异构大型数据集的需求。这篇论文最好地描述了 BNG 生成器: Algorithm Selection on Data Streams

论文中关于 BNG 数据生成器的小引语:

生成器将数据集作为输入,并输出包含类似概念的数据流,并具有预定义的实例数量。输入数据集通过以下操作进行预处理:首先将所有缺失值替换为该属性的多数值,然后使用 Weka 的分箱算法对数字属性进行离散化。

个人说明:对于一般的机器学习研究,我会避免使用 BNG(或任何其他类型的人工生成)数据集,因为这个概念通常比原始数据集更简单。相反,建议使用按定义的基准测试套件,例如OpenML-100