数据挖掘 - Python中没有层次结构的分类变量之间的关联 - 吾爱随笔录

我有一个数据集，其中 20 列中出现了 100 多个可能的变量。乍一看，这个问题似乎适合层次聚类。我开始使用凝聚聚类进行测试，如scikit-learn 文档中所述。它还提到使用连接矩阵，该矩阵不适用于此问题。但是，在与利益相关者合作以增加我的业务理解时，我发现在此过程中没有发生“路径”，并且层次聚类是不合适的。数据如下所示：

col_1	col_2	col_3
代码 1	代码 80	代码 87
代码 80	代码 53	钠

每行代表客户对产品的申请。该应用程序通过一系列自动检查来确定资格。确定了几个问题代码供个人在传递应用程序之前手动解决。有时会同时识别出重复的代码（利益相关者不确定为什么会这样）。有些应用程序有 1 个错误，有些应用程序最多有 20 个错误。

其目的是应用无监督学习（可能是一种聚类技术）来确定出现的任何两到三个或更多代码之间是否存在强关联。然而，我的大部分经验是在 NLP 和分类方面。根据我的研究，虚拟变量可能适合为每个变量的存在创建一个标志。我已经使用它们进行了测试，但由于每行的宽度可变和形状不一致，到目前为止还没有成功。一位同事建议成对相关，但由于这是分类而不是数字，我不知道强制数字是否会影响相关的结果。object我已经通过将数据类型从to强制转换来测试成对相关性int，但结果对于变量之间的任何明显关系都没有定论。

关于适当的建模或数据挖掘技术的任何建议？