在机器学习中如何找到特征相互依赖?

数据挖掘 机器学习 统计数据 特征选择 特征提取
2022-02-15 04:03:49

给定一个包含 N 个特征的数据集,其中该集合中的一些特征是从同一集合中的其他特征派生的,我试图发现特征之间的相互依赖关系(类似于输入特征 -> 输出特征) )。

请注意,同一功能集中可以有多个依赖项。有人可以建议一些技术来解决这个问题。

3个回答

对我来说,您似乎正在寻找关联规则学习您可以使用的算法的一个非常简单的示例是Apriori Algorithm您可以先尝试一下,看看它是否能达到您想要的效果。然后你可以看看更复杂的算法。

通常,这些算法试图找到您的特征之间的关联。例如,他们能够找到暗示,许多购买可口可乐和啤酒的人会购买一包薯片——如果有数据支持的话:

(CocaCola,Beer)(Chips).

基于树的方法(例如随机森林)和增强树方法(例如 XGBoost)通常非常擅长检测特征之间的潜在关系,并且提取特征“重要性”的度量通常非常简单。

您可以尝试主成分分析,或者信息量更大的替代方法:最小二乘特征选择。