我们为什么要计算信息价值?

机器算法验证 数据可视化
2022-03-22 20:40:17

我有分类变量和连续变量的数据,但在解释性数据分析中需要寻找信息价值。

只需说明我们在数据分析开始时计算每个变量的信息值的原因以及进行分析的 INFORMATION VALUE 的截止点是什么

1个回答

一般而言,信息价值提供了衡量一个变量的好坏程度的指标X能够区分某些目标变量中的二元响应(例如“好”与“坏”)Y. 这个想法是如果一个变量X具有较低的信息值,它可能无法对目标变量进行充分分类,因此作为解释变量被删除。

要了解这是如何工作的,让X被分组为n垃圾箱。每个xX对应一个yY可能取两个值之一,比如 0 或 1。然后对于 binXi,1in,

IV=i=1n(gibi)ln(gi/bi)

在哪里

bi=(#0是在Xi)/(#0是在X)=的比例0's in bini与所有垃圾箱相比

gi=(#1是在Xi)/(#1是在X)=的比例1's in bini与所有垃圾箱相比

ln(gi/bi)也称为证据权重(对于 binXi)。截止值可能会有所不同,并且选择是主观的。我经常用IV<0.3(就像下面的 [1] 一样)。

在信用评分的背景下,这两个资源应该会有所帮助:

[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf

[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf