非正态数据的无监督分箱

数据挖掘 机器学习 聚类 无监督学习
2022-02-16 16:57:16

对于一些8000客户资料,除了数据集,我还有两种可用的分数:

  • Type 1 Score范围从01并给出该配置文件属于某个类的预测概率。这个分数的分布严重偏斜,如图

在此处输入图像描述

  • Type 2 Score范围从55并且是使用PRIDIT方法对实际数据获得的配置文件的风险评分。这个分数的分布是相当正常的

在此处输入图像描述

目标是将配置文件分成一些N使用上述信息的垃圾箱。箱应代表与该配置文件相关的不同程度的风险。

我的第一个想法是根据我们可用的两个分数对配置文件进行聚类。然而,没有观察到有意义的集群。

下一个想法是对数据进行排序Type 1 Score,然后在坡度突然变化的点上进行切割,起初这似乎是一个好主意,但这是情节的Type 1 Score样子......

在此处输入图像描述

我现在想的是转换Type 1 ScoreType 2 Score一起给出一些伪正态分布类型,希望某种离散化可以给出正确的 bin。

我的问题是:

  • 如何将这两个分数转换为伪正态分布?
  • 解决上述问题的更好方法是什么?
1个回答

使用分位数箱通常是合适的。

即要获得四个箱,选择最小的 25%,然后到中位数,然后是 Q75,...