在 Python 中使用遗传算法进行特征选择?

数据挖掘 机器学习 深度学习 数据挖掘 预测建模 特征选择
2021-09-29 02:14:05

我有一个包含 4712 条记录和 60 多个特征的数据集来处理二进制分类问题。我已经尝试过所有的特征选择方法,filter, embedded and wrapper但我只是好奇地学习和尝试genetic algorithm特征选择。

选择的原因genetic algorithm是因为我想它只会为我提供基于最佳特征的最佳模型拟合。

1)我知道这可能需要时间,但你们会帮助我知道如何在 Python 中做到这一点吗?

2)此外,genetic algorithm与上面讨论的所有其他特征选择方法有什么不同或更好吗?它的缺点是什么?

有没有关于如何使用它的 python 包和教程?

我看到教程,但它们都是关于遗传算法的理论

你能通过分享遗传算法的任何教程或包来帮助我吗?

发布更新

在此处输入图像描述

1个回答

特征选择是一个组合优化问题。遗传算法是一种优化技术。

所以真的没有什么特别的,你只需要把你的问题表述为一个优化问题,并了解遗传算法是如何优化的。这方面有足够的教程。

不管是好是坏,你已经知道答案了。这取决于。关于数据集、约束等。我可以从经验告诉你的是

  • 你不能指望它会让你大吃一惊,但它们确实工作得很好
  • 它们是一个很棒的集成器,这意味着结果与基于树的方法、NN 等非常不同(但准确)......

最后关于实现,这里是完全(可能太多)基于遗传编程的自动化库。(注意这里的编程一词指的是优化而不是编写代码)此外,它还涵盖了特征选择。