给定一个包含 N 个特征的数据集,其中该集合中的一些特征是从同一集合中的其他特征派生的,我试图发现特征之间的相互依赖关系(类似于输入特征 -> 输出特征) )。
请注意,同一功能集中可以有多个依赖项。有人可以建议一些技术来解决这个问题。
给定一个包含 N 个特征的数据集,其中该集合中的一些特征是从同一集合中的其他特征派生的,我试图发现特征之间的相互依赖关系(类似于输入特征 -> 输出特征) )。
请注意,同一功能集中可以有多个依赖项。有人可以建议一些技术来解决这个问题。
对我来说,您似乎正在寻找关联规则学习。您可以使用的算法的一个非常简单的示例是Apriori Algorithm。您可以先尝试一下,看看它是否能达到您想要的效果。然后你可以看看更复杂的算法。
通常,这些算法试图找到您的特征之间的关联。例如,他们能够找到暗示,许多购买可口可乐和啤酒的人会购买一包薯片——如果有数据支持的话:
.
基于树的方法(例如随机森林)和增强树方法(例如 XGBoost)通常非常擅长检测特征之间的潜在关系,并且提取特征“重要性”的度量通常非常简单。
您可以尝试主成分分析,或者信息量更大的替代方法:最小二乘特征选择。