对于一些客户资料,除了数据集,我还有两种可用的分数:
Type 1 Score范围从到并给出该配置文件属于某个类的预测概率。这个分数的分布严重偏斜,如图
Type 2 Score范围从到并且是使用PRIDIT方法对实际数据获得的配置文件的风险评分。这个分数的分布是相当正常的
目标是将配置文件分成一些使用上述信息的垃圾箱。箱应代表与该配置文件相关的不同程度的风险。
我的第一个想法是根据我们可用的两个分数对配置文件进行聚类。然而,没有观察到有意义的集群。
下一个想法是对数据进行排序Type 1 Score,然后在坡度突然变化的点上进行切割,起初这似乎是一个好主意,但这是情节的Type 1 Score样子......
我现在想的是转换Type 1 Score并Type 2 Score一起给出一些伪正态分布类型,希望某种离散化可以给出正确的 bin。
我的问题是:
- 如何将这两个分数转换为伪正态分布?
- 解决上述问题的更好方法是什么?


