分类变量的证据权重 (WOE) 转换何时有用?
例子可以在WOE改造中看到
(因此,对于响应个类别的分类预测器,& 试验中成功,个类别的 WOE定义为
& 转换包括用 WOE 对分类预测器的每个类别进行编码,以形成一个新的连续预测器。)
我想了解 WOE 转换有助于逻辑回归的原因。这背后的理论是什么?
分类变量的证据权重 (WOE) 转换何时有用?
例子可以在WOE改造中看到
(因此,对于响应个类别的分类预测器,& 试验中成功,个类别的 WOE定义为
& 转换包括用 WOE 对分类预测器的每个类别进行编码,以形成一个新的连续预测器。)
我想了解 WOE 转换有助于逻辑回归的原因。这背后的理论是什么?
在您链接到的示例中,分类预测器由单个连续变量表示,每个级别的值等于观察到的该级别响应的对数几率(加上一个常数):
这种混淆根本没有我能想到的任何目的:您将获得与使用通常的虚拟编码相同的预测响应;但是自由度是错误的,使关于模型的几种有用的推理形式无效。
在多元回归中,需要转换几个分类预测变量,我想你会使用边际对数几率计算每个变量的 WOE。这将改变预测的反应;但是由于没有考虑混杂因素——条件对数赔率不是边际对数赔率的线性函数——我看不出有任何理由认为它是一种改进,推理问题仍然存在。
使用证据权重 (WoE) 度量的粗分类具有以下优势 - WoE 与作为逻辑回归中的因变量的优势比的自然对数显示线性关系。
因此,当我们使用 WoE 而不是变量的实际值时,逻辑回归中不会出现模型错误指定的问题。
= + * + * + *
资料来源:在我的培训师在公司培训期间向我展示的一份 PPT 中。
当您同时拥有需要组合的数字和分类数据以及要从中提取信息的缺失值时,WOE 转换会有所帮助。将所有内容转换为 WOE 有助于将许多不同类型的数据(甚至缺失数据)“标准化”到相同的对数赔率标度上。这篇博文很好地解释了事情:http: //multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
简而言之,带有 WOE 的 Logistic 回归应该(并且现在)称为半朴素贝叶斯分类器 (SNBC)。如果你想理解这个算法,对我来说,SNBC 这个名字的信息量要大得多。