名义/分类数据的“虚拟变量”与“指标变量”

机器算法验证 分类数据 术语 分类编码
2022-02-09 03:27:26

“虚拟变量”和“指标变量”是常用的标签术语,用于描述具有 0/1 编码的类别中的成员资格;通常 0:不是类别成员,1:类别成员。

2014 年 11 月 26 日,在 Academic.google.com 上的快速搜索(带引号)显示,大约 318,000 篇文章使用了“虚拟变量”,大约 112,000 篇文章使用了“指标变量”。“虚拟变量”一词在非统计数学中也具有“约束变量”的含义,这可能有助于在索引文章中更多地使用“虚拟变量”。

我的主题相关问题:

  1. 这些术语是否总是同义词(在统计数据中)?
  2. 这些术语中的任何一个是否曾经可接受地应用于其他形式的分类编码(例如效果编码赫尔默特编码等)?
  3. 有什么统计或纪律上的理由偏爱一个术语而不是另一个?
2个回答

我会说“虚拟变量”是一种更通用的方式来指代代表(共同代表)分类预测变量的(一个)数值变量;因此,该术语也适用于 Helmert & effect coding 中使用的那些。这主要是由于“dummy”的普遍使用来表示“stand-in”。“指标变量”我与指标函数相关 ——所以那些只能是 1 或 0 来表示具有或不具有某些属性;因此,该术语仅适用于参考级编码中使用的那些当然有些人用“dummy coding”来表示“reference-level coding”;他们大概对“虚拟变量”有更严格的定义,或者至少应该有。

† 如果你不叫那些“傻瓜”,你怎么称呼它们?

‡ 所以例如假人xi是一个指示变量,当i第个人ui是男性(集合的成员M):

xi=1M(ui)={1when uiM0when uiM

在哪里1M()是隶属度的指示函数M.

※ 或者,正如@gung 所指出的,级别意味着编码。

@Scortchi 在这里提供了一个很好的答案。让我补充一点。即使使用更严格的指标变量定义,这仍然可以与(至少)回归类型模型中分类数据的两种不同编码方案相关联:即。 参考等级编码等级手段编码使用级别意味着编码,您有一个分类变量k表示为的级别k指标变量,但您不包含1s 为截距(即截距被抑制)。(对于更全面的解释,使用示例模型矩阵,请参阅我的答案:逻辑回归如何具有因子预测因子而没有截距?)当只有一个分类变量时,这会以简单的方式产生模型输出,并且可能受到一些人的青睐。(对于使用此方案有助于比较感兴趣的示例,请参阅我的答案:为什么最佳线性无偏预测器 (BLUP) 的估计值与最佳线性无偏估计器 (BLUE) 不同?