机器算法验证 - 解释变量可能会使预测产生偏差 - 吾爱随笔录

解释变量可能会使预测产生偏差

机器算法验证物流分类数据推理偏见预测器

2022-04-06 20:30:54

我纯粹是出于好奇才问这个问题，我的老师无法解释。

如果我对分类变量使用逻辑回归，它们的编码类似于 {1,2,3}。我想如果我使用 {4,5,6} 它不会改变我的结果。但是，如果不保持编码的线性呢？（比如 {4,10,99}）？我处理的只是编码因子变量的方式，但统计推断是否有可能以这种方式“扭曲”？或者，在最坏的情况下，我是否能够仅仅因为它们以某种方式编码而从分类数据中得出无意义的结论？

2个回答

关键是您不会将分类变量的级别编码为 1,2,3，即使您这样称呼它们。您使用虚拟变量对它们进行编码因此当线性预测器由时，\beta_0 是第 1 级的对数几率，是第 2 级和级别 1，&是级别 3 和级别 1 之间的对数优势比。可以使用不同的编码方案（参见此处

\begin{array}{lcc} x_{1} & x_{2} \\ level 1 & 0 & 0 \\ level 2 & 1 & 0 \\ level 3 & 0 & 1 \end{array}

$\begin{array}{l c c} &x_1&x_2\\ \text{level 1} &0 & 0\\ \text{level 2} &1 & 0\\ \text{level 3} &0 & 1\\ \end{array}$

η = β_{0} + β_{1} x_{1} + β_{2} x_{2}

$\eta = \beta_0 +\beta_1 x_1 +\beta_2 x_2$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

β_{2}

$\beta_2$ )，改变系数的解释但不实质性地改变模型（即相同的预测值给出相同的预测响应）。

如果您的软件将因子级别 1、2、3的因子变量视为numeric，那么您的模型和预测将是垃圾，仅仅是因为第 1 组和第 3 组之间的差异（在链接尺度上）将被拟合为差异的两倍在第 1 组和第 2 组之间，这通常没有意义。

所以：告诉你的软件 1、2、3 是因数。更好的是，使用 A、B、C。没有诚实的软件会将 A、B、C 误解为数字。

其它你可能感兴趣的问题