我有分类变量和连续变量的数据,但在解释性数据分析中需要寻找信息价值。
只需说明我们在数据分析开始时计算每个变量的信息值的原因以及进行分析的 INFORMATION VALUE 的截止点是什么
我有分类变量和连续变量的数据,但在解释性数据分析中需要寻找信息价值。
只需说明我们在数据分析开始时计算每个变量的信息值的原因以及进行分析的 INFORMATION VALUE 的截止点是什么
一般而言,信息价值提供了衡量一个变量的好坏程度的指标能够区分某些目标变量中的二元响应(例如“好”与“坏”). 这个想法是如果一个变量具有较低的信息值,它可能无法对目标变量进行充分分类,因此作为解释变量被删除。
要了解这是如何工作的,让被分组为垃圾箱。每个对应一个可能取两个值之一,比如 0 或 1。然后对于 bin,,
在哪里
的是在的是在的比例's in bin与所有垃圾箱相比
的是在的是在的比例's in bin与所有垃圾箱相比
也称为证据权重(对于 bin)。截止值可能会有所不同,并且选择是主观的。我经常用(就像下面的 [1] 一样)。
在信用评分的背景下,这两个资源应该会有所帮助:
[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf
[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf