我正在对客户交易数据进行信用风险建模,其中一部分如下所示:
str(x)
'data.frame': 412516 obs. of 26 variables:
$ Tenure : num 1.26 1.25 1.26 1.31 1.32 ...
$ Product : Factor w/ 24 levels "BACKHOE LOADER",..: 4 4 4 9 9 9 9 9 9 9 ...
$ Net.Exposure : num 333339 528049 327335 350000 460000 ...
$ OD.On.31.01.2017 : num 0 90386 0 0 1099692 ...
$ LM.Bucket : Ord.factor w/ 11 levels "0"<"1 TO 30"<..: 1 1 1 1 11 11 11 11 11 11 ...
$ Bucket : Ord.factor w/ 11 levels "0"<"1 TO 30"<..: 1 3 1 1 11 11 11 11 11 11 ...
$ Billing : num 65380 0 8800 6339 8331 ...
$ Fin.IRR : num 13.5 14.6 14.6 18.1 23.3 ...
$ NPA.Flag : Factor w/ 2 levels "No","Yes": 1 1 1 1 2 2 2 2 2 2 ...
$ Inst.Due : num 0 0.85 0 0 3 3 3 3 3 3 ...
$ FR.On.31.01.2017 : num 65380 0 38940 35043 499860 ...
$ POS.On.31.01.2017: num 56453 0 32920 33368 293943 ...
$ Del.String : int 2 1 1 1 53720 53720 53720 53720 53720 53720 ...
$ Territory : Factor w/ 43 levels "AGRA","AHMEDABAD",..: 41 41 41 41 41 41 41 41 41 41 ...
像 OD(逾期)和 LM.Bucket(直到上个月他的贷款还款到期的月份)这样的变量每个月都会发生变化。我有 2 个任务:预测桶和 NPA 标志(非执行资产)
我仅基于 Jan 数据(x)为此建立了一个模型。但我的问题是,由于这些变量每个月都在变化,我是否应该将其视为顺序数据并在其上构建深度学习模型(HMM/NN)?如果我应该如何处理产品类型等静态变量?
我问过我的老板,他说不应该这样做,因为外部经济因素会随着时间而变化。这是担心的理由吗?