机器算法验证 - 我们为什么要计算信息价值？ - 吾爱随笔录

机器算法验证数据可视化

2022-03-22 20:40:17

我有分类变量和连续变量的数据，但在解释性数据分析中需要寻找信息价值。

只需说明我们在数据分析开始时计算每个变量的信息值的原因以及进行分析的 INFORMATION VALUE 的截止点是什么

1个回答

一般而言，信息价值提供了衡量一个变量的好坏程度的指标 $X$ 能够区分某些目标变量中的二元响应（例如“好”与“坏”） $Y$ . 这个想法是如果一个变量 $X$ 具有较低的信息值，它可能无法对目标变量进行充分分类，因此作为解释变量被删除。

要了解这是如何工作的，让 $X$ 被分组为 $n$ 垃圾箱。每个 $x \in X$ 对应一个 $y \in Y$ 可能取两个值之一，比如 0 或 1。然后对于 bin $X_i$ , $1 \leq i \leq n$ ,

I V = \sum_{i = 1}^{n} (g_{i} - b_{i}) * \ln (g_{i} / b_{i})

$IV= \sum_{i=1}^n (g_i-b_i)*\ln(g_i/b_i)$

在哪里

$b_i= (\#$ 的 $0$ 是在 $X_i)/(\#$ 的 $0$ 是在 $X) =$ 的比例 $0$ 's in bin $i$ 与所有垃圾箱相比

$g_i= (\#$ 的 $1$ 是在 $X_i)/(\#$ 的 $1$ 是在 $X) =$ 的比例 $1$ 's in bin $i$ 与所有垃圾箱相比

$\ln(g_i/b_i)$ 也称为证据权重（对于 bin $X_i$ ）。截止值可能会有所不同，并且选择是主观的。我经常用 $IV < 0.3$ （就像下面的 [1] 一样）。

在信用评分的背景下，这两个资源应该会有所帮助：

其它你可能感兴趣的问题