如何识别 5 个分类自变量与二元因变量之间是否存在关系?

数据挖掘 机器学习 统计数据 分类数据
2022-02-23 20:56:18

我的数据集有 5 个自变量,每个变量的值都是大、中或无和一个二进制因变量。数据集有 67 行,分割时间为 17:50。

我想确定自变量和因变量之间是否存在关系,并探索哪些变量/变量集对结果的影响最大。

到目前为止,我检查过的大多数解决方案(名义变量关联和 Cramer's V)都不支持多个自变量。

2个回答

一种简单、棘手但可能是最好的方法是使用决策树。建立模型后,您可以分析树的结构以识别关系。之后,您可以列出特征重要性以查看自变量对因变量的影响。

在python中,可以使用sklearn来实现。feature_importances_会给你Gini的特征和plot_tree()功能的重要性,看看树的结构。本文也可能有助于了解如何做到这一点。

有多种方法可以做到这一点,其中一些是:-

1.) 使用L2 正则化来确定 5 个特征中哪些对预测目标的贡献更大。

2.) 使用基于树和基于梯度提升的模型来计算每个特征的特征重要性。是一篇使用各种模型计算特征重要性的文章。

3.)使用 PCA 获得具有最大方差的特征(尽管我对此不确定)

4.) 使用mutual_info_classificationsklearns 库计算特征重要性。

除此之外,您可以使用基于过滤器、基于包装器的方法来获取 5 个特征的特征重要性。