考虑一个类似于所示的数据框(实际的数据框要大得多)
ID EDUCATION OCCUPATION BINARY_VAR
1 Undergrad Student 1
2 Grad Business Owner 1
3 Undergrad Unemployed 0
4 PhD Other 1
最终目标是根据单元格中各个值的离散“等级”分数对各个配置文件 ( ) 应用PRIDIT评分。ID这些排名可以被认为是指标变量,将用于集体评价任何
因此,例如,排名可能意味着某些进行欺诈:
1 : Low
2 : Medium
3 : High
该变量BINARY_VAR类似于“训练变量”或更确切地说是“预测变量”,这样
欺诈罪
非欺诈
根据这个推理,失业的本科生将是 3 级简介。
为了应用 PRIDIT,我必须首先将非数字变量转换为分数或级别。
目前的做法是对每列应用对应分析BINARY_VAR,然后计算列贡献分数与非欺诈行贡献分数的距离。
行和列分数看起来像这样(分别):
CONTR
0 1.654
1 98.346
------------------------------
CONTR
Undergraduate 2.803602e-04
Graduate 3.147824e+00
PhD 9.176451e+00
Other 1.179664e+01
获得的距离(假设)给出了该级别所需的分数,该分数作为等级写回数据帧(更高的值导致更高的等级)。
我对这种技术的主要担忧是:
数据框非常大,资源有限——这是一种计算成本很高的方法。
它涉及很多步骤,并且无法真正验证评分的结果(可以吗?)。
我的问题是:
- 这种技术看起来可行吗?
- 将“等级”分配给非数字变量的更好方法是什么?