从具有 2000 个布尔特征的生成模型中学习和采样

数据挖掘 机器学习
2021-10-03 06:30:34

我的数据是一组大约 100 万个训练示例,其中每个示例由大约 2000 个布尔特征表示。示例没有标记——它在这个领域没有任何意义。这些功能完全定义了示例。我的目标是学习可以用来生成更多示例的生成模型。我想捕捉功能之间的一些依赖关系(例如,如果功能 10 开启,则功能 14、15 和 16 通常开启)。

我在 ML 方面没有太多背景,所以我不确定这样做的简单方法是什么(算法和软件包)。我最初的想法是找到一个结构学习包来学习贝叶斯网络,然后从中采样,但我想我会在这里询问是否有人有任何建议。

谢谢

1个回答

您可以尝试Apriori 算法或更高级的FPGrowth 算法它将为您提供一组关联规则,我认为您需要:

例如,如果功能 10 开启,则功能 14、15 和 16 通常开启