Python中没有层次结构的分类变量之间的关联

数据挖掘 机器学习 Python scikit-学习 聚类 数据挖掘
2022-02-21 09:17:42

我有一个数据集,其中 20 列中出现了 100 多个可能的变量。乍一看,这个问题似乎适合层次聚类。我开始使用凝聚聚类进行测试,如scikit-learn 文档中所述。它还提到使用连接矩阵,该矩阵不适用于此问题。但是,在与利益相关者合作以增加我的业务理解时,我发现在此过程中没有发生“路径”,并且层次聚类是不合适的。数据如下所示:

col_1 col_2 col_3
代码 1 代码 80 代码 87
代码 80 代码 53

每行代表客户对产品的申请。该应用程序通过一系列自动检查来确定资格。确定了几个问题代码供个人在传递应用程序之前手动解决。有时会同时识别出重复的代码(利益相关者不确定为什么会这样)。有些应用程序有 1 个错误,有些应用程序最多有 20 个错误。

其目的是应用无监督学习(可能是一种聚类技术)来确定出现的任何两到三个或更多代码之间是否存在强关联。然而,我的大部分经验是在 NLP 和分类方面。根据我的研究,虚拟变量可能适合为每个变量的存在创建一个标志。我已经使用它们进行了测试,但由于每行的宽度可变和形状不一致,到目前为止还没有成功。一位同事建议成对相关,但由于这是分类而不是数字,我不知道强制数字是否会影响相关的结果。object我已经通过将数据类型从to强制转换来测试成对相关性int,但结果对于变量之间的任何明显关系都没有定论。

关于适当的建模或数据挖掘技术的任何建议?

0个回答
没有发现任何回复~