我想知道是否存在根据目标对数据进行聚类的技术。例如,假设我们想要找到可能流失的客户组:
- 目标是流失。
- 我们希望根据它们可能流失(或不流失)的事实来找到表现出相同行为的集群。因此,不解释流失行为的变量不应影响集群的构建方式。
我通过以下方式进行了分析:
- 预测目标(例如使用随机森林)并检索“最重要的特征”(来自特征重要性分析)。
- 具有选定特征的聚类样本(例如使用 k-means)。
但是,我担心第二步中使用的聚类技术可能无法捕捉到第一步中发现的可能解释流失的行为(假设 RF 中的某些树中存在复杂的交互,这种交互可能不会在 k-表示算法)。
我正在考虑使用神经网络的另一种方法:
- 使用具有多个层的神经网络预测目标,并为每个样本从给定层检索激活。
- 聚类样本及其激活。
如果神经网络的性能良好,并且如果从中检索激活的层是经过仔细选择的(不太靠近输入或输出层),我想这些集群可以向客户展示解释目标的相同行为。
我没有找到任何具有这种方法的文章。有没有人处理过同样的问题或有其他想法?