数据挖掘 - 将非数字数据值转换为等效排名分数 - 吾爱随笔录

考虑一个类似于所示的数据框（实际的数据框要大得多）

ID EDUCATION   OCCUPATION      BINARY_VAR
1  Undergrad   Student              1
2  Grad        Business Owner       1
3  Undergrad   Unemployed           0
4  PhD         Other                1

最终目标是根据单元格中各个值的离散“等级”分数对各个配置文件 ( ) 应用PRIDIT评分。ID这些排名可以被认为是指标变量，将用于集体评价任何 $ID_i$

因此，例如，排名可能意味着某些 $ID_i$ 进行欺诈：

1 : Low
2 : Medium
3 : High

该变量BINARY_VAR类似于“训练变量”或更确切地说是“预测变量”，这样

$Var = 0:$ 欺诈罪

$Var = 1:$ 非欺诈

根据这个推理，失业的本科生将是 3 级简介。

为了应用 PRIDIT，我必须首先将非数字变量转换为分数或级别。

目前的做法是对每列应用对应分析BINARY_VAR，然后计算列贡献分数与非欺诈行贡献分数的距离。

行和列分数看起来像这样（分别）：

            CONTR
0           1.654
1           98.346
------------------------------
                  CONTR
Undergraduate     2.803602e-04
Graduate          3.147824e+00
PhD               9.176451e+00
Other             1.179664e+01

获得的距离（假设）给出了该级别所需的分数，该分数作为等级写回数据帧（更高的值导致更高的等级）。

我对这种技术的主要担忧是：

数据框非常大，资源有限——这是一种计算成本很高的方法。
它涉及很多步骤，并且无法真正验证评分的结果（可以吗？）。

我的问题是：

这种技术看起来可行吗？
将“等级”分配给非数字变量的更好方法是什么？